Лекториум / Каталог курсов / Сравнение и создание групп
Лекториум / Каталог курсов / Сравнение и создание групп

Сравнение
и создание групп

Вы научитесь сравнивать группы между собой и статистически оценивать значимость межгрупповых различий. Также вы освоите основные методы кластеризации и научитесь выделять группы объектов в наборе данных. Кроме того, вы выполните исследовательский проект на реальных данных компании 2GIS

34 лекций с заданиями
Чат в «Телеграме» с авторами
Свободное расписание
Сертификат
Присоединяйтесь к курсу в любое время! В бесплатном режиме доступен первый модуль. В платном — доступ к остальным модулям, заданиям и сертификации
Записаться
Курс посвящен статистическому сравнению групп и категорий. В первой части курса мы рассказываем о параметрических и непараметрических тестах сравнения средних и распределений, какие возможности и ограничения связаны с разными методами сравнения групп, говорим о сравнении связанных и несвязанных выборок.
Различаются ли регионы (или аудитории) по доходу или возрасту? Как отличается пользовательская активность в разные времена года? Случайны различия между группами или закономерны? Курс научит искать ответы на такие вопросы.
Вторая половина курса посвящена выделению групп на основе эмпирических данных. Есть ли в данных структура? Можно ли говорить о том, что люди, компании или университеты группируются в отличительные узнаваемые классы? Как найти и охарактеризовать такие группы? Мы покажем основные алгоритмы кластеризации, которые позволяют решать эти задачи.
В практических видео курса мы покажем реализацию основных инструментов сравнения и выделения групп, а также предложим практические задачи и задания для отработки полученных навыков.
Посмотреть трейлер для студентов
Посмотреть трейлер для специалистов
Для кого

Курс будет полезен всем, кто:

  • Изучает анализ данных и хочет разобраться на простых и понятных примерах
  • Знает основы анализа данных и хочет прокачаться в сравнении групп, поиске структур в данных, а также научиться методам кластерного анализа
  • Хочет научиться работать в SPSS или R
  • Работает с аналитиками данных и хочет понимать их
  • Так или иначе имеет дело с данными и хочет научиться грамотно их анализировать
Зачем
  • Научиться сравнивать группы между собой, находить сходства и значимые отличия
  • Попрактиковаться в решении актуальных рыночных задач на реальных данных
  • Научиться находить группы в данных и описывать их характеристики
  • Познакомиться с инструментами анализа данных — SPSS и R
Авторский подход
Этот курс — результат совместной работы преподавателя анализа данных в НГУ Ольги Ечевской и аналитиков компании 2GIS Натальи Галановой и Виктора Демина.

Ценность курса — в комбинации систематичной и доступной подачи материала и практических кейсов, построенных на реальных данных компании 2GIS.
Нажмите на карточку, чтобы узнать больше
программа курса
Этот курс — третий в специализации «Анализ данных». Чтобы успешно его освоить, вам понадобятся знания основ теории вероятностей и математической статистики. Если вы не уверены в своих знаниях, рекомендуем начать с курса «Введение в данные».
Курс расскажет вам, как понять, различаются ли группы между собой, какие различия наиболее существенны и статистически значимы. Также вы узнаете, как находить группы в данных и выявлять характеристики этих групп. Мы начнем с обзора статистических гипотез и инструментов их проверки, поговорим о статистических тестах, параметрических и непараметрических, об их возможностях и ограничениях, разберем их на практических примерах.
Затем мы перейдем к выделению групп в данных и познакомимся с методами кластерного анализа, разберем основные инструменты статистической оценки взаимосвязей: таблицы сопряженности, коэффициенты корреляции, модели линейной регрессии. Научимся интерпретировать их смысл и оценивать качество построенных моделей.
Вы сможете применить полученные знания, выполнив небольшой проект на реальных данных, предоставленных компанией 2GIS.

Вводные материалы о специализации

  • Вводная лекция: структура и содержание специализации
  • О чем этот курс и как он устроен
  • Дополнительные материалы по статистическим пакетам
  • Данные, на которые мы опираемся и ссылаемся
Модуль 1. Одновыборочные и двухвыборочные критерии
В первом модуле курса мы начнем разбираться со статистическими инструментами сравнения параметров и распределений в группах. Сначала поговорим об основных задачах межгрупповых сравнений, затем рассмотрим одновыборочные и двухвыборочные критерии, научимся сравнивать связанные и несвязанные выборки и посмотрим на практике, на реальных данных, как рассчитывать основные статистики в R и SPSS и интерпретировать полученные результаты.

  • Введение в межгрупповые сравнения
  • Одновыборочные критерии сравнения средних
  • Сравнение двух независимых выборок
  • Сравнение дисперсий двух независимых выборок
  • Сравнение распределений двух независимых выборок
  • Сравнение двух связанных выборок
  • Критерии равенства групп. Практика
  • Сравнение средних в SPSS. Практика
Модуль 2. Сравнение нескольких выборок
В этом модуле мы продолжим разговор о сравнении групп. Мы научимся сравнивать несколько групп при помощи разных инструментов, грамотно выбирать инструменты исходя из задачи и типа данных, с которыми мы работаем, и на практике, на реальных данных, посмотрим, как рассчитывать основные статистики в R и SPSS и интерпретировать полученные результаты.

  • Сравнение средних для k независимых выборок: параметрический случай
  • Сравнение средних для k независимых выборок: непараметрический случай
  • Сравнение средних для нескольких связанных выборок
  • Критерий Фридмана
  • Биномиальные данные
  • Проверка соответствия выборочных пропорций теоретическим
  • Проверка гипотез о равенстве средних для нескольких зависимых и независимых групп в R. Практика
  • Сравнение средних в SPSS: k-выборочные критерии. Практика
  • Сравнение средних в SPSS: тесты для связанных выборок. Практика
Модуль 3. Введение в кластерный анализ
В третьем модуле курса мы поговорим о методах выделения групп. Если до этого мы сравнивали группы, которые уже были нам известны, то во второй половине курса мы будем говорить о том, как обнаружить группы в данных, как их выделить, охарактеризовать и что можно делать с построенной классификацией дальше. Основной фокус модуля — агломеративные методы классификации. В заключении, как всегда, будет практика на реальных данных.

  • Особенности методов кластерного анализа
  • Меры сходства. Меры расстояния
  • Корреляционные меры сходства и меры ассоциативности
  • Иерархический кластерный анализ
  • Определение оптимального количества кластеров
  • Иерархический кластерный анализ: пример
  • Иерархический кластерный анализ в R. Практика
  • Иерархический кластерный анализ в SPSS. Практика
Модуль 4. Итерационные методы кластерного анализа
В заключительном модуле курса мы разберемся еще с одним классом методов кластеризации — итерационными методами: увидим, как работают алгоритмы, каковы возможности и ограничения разных алгоритмов, научимся строить классификации, оценивать их качество, характеризовать и анализировать полученные группы, а также разберем некоторые инструменты визуализации результатов классификации. В заключении, как всегда, будет практика на реальных данных.

  • Метод k-средних
  • Метод K-средних. Пример
  • Алгоритм Forel
  • Forel. Пример
  • Способы оценки качества кластеризации
  • Графические инструменты в кластерном анализе
  • Построение кластерного анализа с помощью k-средних в R. Практика
  • Построение кластерного анализа методом k-средних в SPSS. Практика
Специализация «Анализ данных»
Этот курс — часть специализации. Вы можете приобрести сразу четыре курса со скидкой 15%
Авторы
Ольга Ечевская
Социолог-исследователь, кандидат социологических наук, преподаватель курса «Анализ данных» в Новосибирском государственном университете
Виктор Демин
Аналитик данных компании 2GIS, Team lead, кандидат технических наук
Наталья Галанова
Аналитик данных компании 2GIS.
Как выглядит курс
Сравнение и создание групп
Курс посвящен статистическому сравнению групп и категорий. В первой части курса мы рассказываем о параметрических и непараметрических тестах сравнения средних и распределений, какие возможности и ограничения связаны с разными методами сравнения групп, говорим о сравнении связанных и несвязанных выборок.
Вторая половина курса посвящена выделению групп на основе эмпирических данных. Есть ли в данных структура? Можно ли говорить о том, что люди, компании или университеты группируются в отличительные узнаваемые классы? Как найти и охарактеризовать такие группы? Мы покажем основные алгоритмы кластеризации, которые позволяют решать такие задачи.
В практических видео курса мы покажем реализацию основных инструментов сравнения и выделения групп, а также предложим практические задачи и задания для отработки полученных навыков. Добро пожаловать на курс!
Что вы получите
  • 4 модуля, 34 видеолекции
  • 9 практических видео (скринкастов)
  • Авторская подача: просто, понятно, с примерами, разбором типичных ошибок, демонстрацией решения задач в SPSS и R
  • Практическое задание для отработки навыков анализа данных на реальных данных компании 2GIS
  • Свободное расписание: нет дедлайнов и сроков сдачи заданий
  • Тест после каждого модуля
  • Профессиональное видео и современная графика
  • Быстрая связь с техподдержкой и чат с автором
  • В бесплатном режиме первый модуль доступен вам полностью. После оплаты обучения для вас откроется полный доступ к курсу, проверочным заданиям после каждого урока и сертификации
Зачем
  • Научиться сравнивать группы между собой, находить сходства и значимые отличия
  • Попрактиковаться в решении актуальных рыночных задач на реальных данных
  • Научиться находить группы в данных и описывать их характеристики
  • Познакомиться с инструментами анализа данных — SPSS и R
Присоединяйтесь к курсу в любое время! В бесплатном режиме доступен первый модуль. В платном — доступ к остальным модулям, заданиям и сертификации
FAQ
Когда я получу доступ к курсу?
Первый модуль курса доступен сразу после записи. После оплаты обучения вам будет открыт полный доступ к видеолекциям, заданиям и сертификации.
Как проходит обучение?
Все обучение проходит онлайн. Вы изучаете уроки и общаетесь с сокурсниками и автором в чате.
Что делать, если не успел сдать задание вовремя?
В нашем курсе нет дедлайнов и сроков. Вы можете проходить его в комфортном темпе.
Будут ли вебинары?
В нашем курсе нет вебинаров. Вы можете общаться с автором в чате.
Какой интернет и какое устройство нужно для комфортной учебы?
Для просмотра лекций вам подойдет практически любое устройство (компьютер, телефон, планшет), на котором вам комфортно работать. Скорость интернета должна быть такой, чтобы можно было без задержек смотреть потоковое видео, например с YouTube. Выполнять тесты и выпускать сертификаты удобнее на компьютере.
Можно ли скачать урок?
Нет, вы учитесь на онлайн-платформе и смотрите потоковое видео.
Реквизиты курса
Длительность курса

5 недель
Организаторы

Новосибирский государственный университет, 2 GIS
Click to order
Total: 
После оплаты дождитесь оповещения об успешном платеже. Квитанцию и доступ к курсу мы пришлем на вашу почту
Переходя к оплате, вы принимаете публичную оферту и даете согласие на обработку ваших персональных данных.
Находясь на сайте, вы даете согласие на обработку файлов cookie. Это необходимо для более стабильной работы сайта
Понятно