2016-2017, 2 семестр

Описание курса

Всё, что регистрирует человек и созданные им машины является данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Для того чтобы извлечь из этих сырых данных какие-либо закономерности (знания) применяются методы анализа данных.

Интеллектуальный анализ данных занимается вопросами фильтрации и преобразования данных, открытием новых характеристик данных, задачами предсказания, классификации и кластеризации. Математическую основу анализа данных составляют методы математической статистики.

Презентации к лекциям, задания, исходный код и литература находятся в OneDrive.

Благодарности

Выражаю свою признательность В.Л. Аббакумову, из курса которого позаимствован ряд примеров.

1. Знакомство с Data Mining и пакетом R. Описательные статистики

Чем занимается Data Mining (=интеллектуальный анализ данных). Почему стоит им заниматься. История науки о данных. Наш инструментарий: пакет R. Другие пакеты. Компоненты R. Литература, ссылки и видеокурсы. Предупреждение, без которого Data Mining не работает.

Генеральная совокупность и выборка. Типы переменных и как они реализованы в R. Построение графиков. Списки и таблицы в R. Меры центральной тенденции: среднее, медиана. Меры разброса: дисперсия, стандартное отклонение и квантили.

2. Разведочная статистика

Ищем поддельные купюры в наборе данных Swiss Bank Notes. Загрузка данных. Знакомство с данными. Проверка на ошибки. Гистограмма - что это и зачем она нужна. Столбиковые диаграммы. Диаграммы Кливленда. Диаграмма рассеивания. Матрица диаграмм рассеивания. Ящик с усами - как строить и зачем нужен.

Примеры. Города (перепись 1959 г.). Какой город можно считать типичным?

3. Кластерный анализ-1. Иерархическая кластеризация

Терминология и постановка задачи. Где используется кластерный анализ. Идея метода. Расстояние между точками-объектами. Расстояние между кластерами. Алгоритм иерархического кластерного анализа. Построение дендрограммы. Где на дендрограмме кластеры? График "каменистая осыпь" ("локоть"). Выбор расстояния между кластерами разных видов. Участие аналитика в кластерном анализе. Стандартизация переменных.

Примеры: сегментация потребителей безалкогольных напитков, классификация претендентов на вакансию, потребление белков в Европе. Работа функции hclust. Построение графика "каменистая осыпь".

4. Кластерный анализ-2. Метод k-средних

Алгоритм k-средних. Визуализация пошаговой работы алгоритма. Выбор начального расположения центров кластеров. Определение числа кластеров k. Особенности метода k-средних.

Примеры: сегментация потребителей безалкогольных напитков, потребление белков в Европе. Многомерное шкалирование для визуализации кластеров.

5. Проверка статистических гипотез. Случай одной выборки.

Алгоритм проверки статистических гипотез. Нулевая и альтернативная гипотезы. Распределение выборочных статистик. Уровень значимости. Статистика критерия. p-уровень. Односторонние и двусторонние критерии. Ошибки 1-го и 2-го рода, их связь с выбором уровня значимости.

6. Проверка статистических гипотез-2. Случай двух выборок. Исследование связи между переменными

Сравнение двух выборок выборок. Переход к сравнению центральных тенденций. Независимые и парные выборки.

Связь между двумя переменными. Связанность и причинная обусловленность, типичные ошибки при изучении связи между двумя явлениями. Проверка взаимосвязи номинальных данных. Критерий хи-квадрат. Связь между переменными, измеренными по интервальной шкале. Диаграмма рассеяния. Построение линии регрессии. Коэффициенты корреляции Пирсона и Спирмена. Проверка статистической значимости коэффициента корреляции Пирсона.

7. Линейный регрессионный анализ

Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Квартет Анскомба. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

Примеры: прогнозирование цен на жилую недвижимость в Альбукерке; цены на женские кольца с бриллиантами в Сингапуре.

8. Линейный регрессионный анализ: прогнозирование коротких временных рядов

Прогноз. Временной ряд. Прогнозирование на основе линейной регрессионной модели с сезонными индикаторными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование — прием для преобразования мультипликативной сезонности в аддитивную. Ловушка индикаторных переменных и как с ней справляться.

Примеры: прогнозирование международных пассажирских авиаперевозок; продажи ликеров и красных вин в Австралии.

9. Линейная регрессия: проверка предположений и анализ результатов

Теорема Гаусса-Маркова: ее условия, что она дает и последствия нарушения ее ограничений. Анализ остатков. Ошибка спецификации. Мультиколлинеарность, Tolerance и VIF. Проверка постоянства дисперсий остатков. Коррекция моделей при наличии отклонений распределения остатков от нормальности. Расстояние Кука и "рычаг". Статистика Дурбина-Ватсона.

Примеры: данные Галилея, прогнозирование веса новорожденных.

10. Прогнозирование временных рядов: экспоненциальное сглаживание

Недостатки метода линейной регрессии. Простое экспоненциальное сглаживание. Метод Холта-Уинтерса (Holt-Winters). Локальный тренд, локальная сезонность. Сравнение экспоненциального сглаживания и регрессии.

Оценка ошибки прогноза. Кросс-валидация. Выбор метод прогнозирования.

Примеры: прогнозирование международных пассажирских авиаперевозок; продажи красных вин в Австралии.

11. Классификация-1. Метод k-го ближайшего соседа

Метод k-го ближайшего соседа. Состоятельность метода. Ленивое обучение. Отбор признаков (Feature Selection). Определение числа ближайших соседей. Пакеты для kNN в R. Таблица сопряженности для определения качества работы метода.

Overfitting (чрезмерная подгонка, переобучение). Кросс-валидация (перекрестная проверка). Обучающая и тестовая выборки. Метод тестового множества. Метод исключенных наблюдений (leave-one-out cross validation). k-кратная кросс-валидация (k-fold кросс-валидация). Применения кросс-валидации.

Примеры: прогнозирование продаж нового сорта пива; классификация вин.

12. Классификация-2. Деревья классификации CART

Деревья классификации (и регрессии). Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Библиотека rpart. Меры чистоты узла (impurity measures). Методы измерения чистоты: индекс Джини, энтропия. Правила остановки обучения дерева. Библиотека rpart.plot. Борьба с переобучением.

Примеры: кредитный скоринг; классификация вин.

13. Классификация-3. Ансамбли моделей. Случайный лес. Градиентный бустинг

Приемы объединения классификаторов: stacking, бэггинг (bagging) и бустинг (boosting). Случайный лес (random forest). Бэггинг. Библиотека randomForest. Ключевые параметры модели. Out-of-bag error. Информативность переменных (Importance). Анализ несбалансированных выборок. Определение числа деревьев.

Идея бустинга. Алгоритм Gradient boosting machine (TreeNet). Библиотека gbm. Ключевые параметры модели. Применение GBM для нелинейной регрессии. Настройка числа итераций. Пороговые значения.

Примеры: классификация вин.

О разновидностях обучения с учителем: обучение с частичным привлечением учителя; активное обучение; многозадачное обучение; обучение с подкреплением.

14. Факторный анализ. Анализ главных компонент

Виды факторного анализа. Задачи, решаемые с помощью факторного анализа. Математическая модель анализа главных компонент. Функция prcomp. Критерии выбора нужного числа компонент. Математическая модель факторного анализа. Общность и уникальность. Факторные нагрузки, их интерпретация. Вращения факторов. Интерпретация факторов. Функция factanal.

Примеры: поведение самцов колюшки; рождаемость и социоэкономические показатели Швейцарии в 1888 г.

Задания

Кластерный анализ
Линейный регрессионный анализ: прогнозирование коротких временных рядов
Классификация: метод kNN