2016-2017, II семестр
Презентации к лекциям, лабораторные работы, исходный код и литература находятся в OneDrive.
Лекция 1. Введение в R: переменные, типы данных
Почему R: чтобы во время анализа данных не думать о программировании. Имена переменных. Операция присваивания. Типы данных: vector, matrix, array. Создать, выбрать элемент. Добавить элементы. Категориальные данные: factor.
Лекция 2. Введение в R: типы данных, логическая индексация, управление процессом вычислений
Типы данных (продолжение): list и data.frame (таблицы). Создаем, выбираем элементы, задаем имена колонок. Логическая индексация. Проверка принадлежности к типу данных is. Преобразование типов as.. Управление вычислительным процессом. Циклы for, while, repeat. Условные операторы: скалярный if и векторный ifelse. Графика: plot с цветом, типом линии и маркерами. Глобальные настройки par().
Лекция 3. Введение в R: семейство apply(), работа с файлами
apply'и — "серийные" функции, замена циклам. Несуществующие величины: NA, NULL, Inf, -Inf, NaN. Проверка на существование. Пользовательские функции. Рабочий каталог. Чтение/запись таблиц из текстовых файлов. Сохранение и загрузка бинарных файлов. magrittr - операторный подход.
Лекция 4. Протокол HTTP. Архитектура REST
Запрос и ответ. Заголовки. Коды состояния. HTTP как stateless-протокол. Передача параметров методом GET. Метод POST. Запросы HTTP в R. Пример: геокодирование с помощью Google Maps Geocoding API. Архитектура REST. Управление ресурсами. Пример RESTful API: Mendeley.com. Открытые данные. Источники данных.
Лекция 5. Веб-скрапинг. Пакет rvest
Веб-скрапинг. Поиск элемента веб-страницы. XPath и путь по CSS-селекторам. Пакеты для веб-скрапинга в R. Функции пакета rvest. Поиск элемента на странице. Разбор элемента. Извлечение данных из таблиц. Пример: извлечение данных из таблицы лондонских музеев. Работа с формами. Пример: аутентификация на форуме. Функции навигации. Работа с кодировками.
Лекция 6. Примеры по rvest. Динамические страницы
Таблица, размещенная на нескольких страницах. Запросы на стороне сервера. Динамические страницы. Пакет RSelenium. Запуск браузера. Управление браузером. Пример: получение данных по фьючерсам на свинец для заданного интервала времени.
Лекция 7. Использование Twitter Search API
Использование данных Twitter для наукастинга (nowcasting) — оперативного прогнозирования. Разновидности Twitter API. Протокол авторизации OAuth 2.0. Регистрация приложения (app) в Twitter Search API. Подключение к Twitter из R. Поиск твитов. Составные запросы и хэштеги. Фильтрация результатов поиска. Ограничения Twitter Search API. Пакеты R, посвященные Twitter. Пример: строим облако слов по данным твитов.
Лекция 8. Работа с регулярными выражениями в пакете stringr
Регулярные выражения (regex). Общий вид функций пакета stringr. Алфавит регулярных выражений. Экранирующий символ. Положение образца внутри строки. Классы символов и альтернативы. Повторения (квантификаторы). Жадное и ленивое поведение квантификаторов. Группировка. Основные задачи, решаемые с помощью регулярных выражений: найти строку по образцу; извлечь строку по образцу; заменить совпадение новой строкой; разделить строку на части по образцу; найти расположение подстроки в строке.
Лекция 9. R Markdown — создание динамических документов в R
Философия Markdown. Основы оформления документа в Markdown. Notepad++ и плагин MarkdownViewer++. Pandoc — универсальный конвертер. Метаданные документа (YAML). Расширения Markdown. Математические формулы. RMarkdown — пакет R для подготовки документов и их преобразования в разные форматы. RStudio — редактор (IDE) для работы с документами RMarkdown. "Живой" код на R, Python, SQL, ... Настройка стилей документа Word, созданного в R Markdown. R Notebook. Недостатки R Markdown. Генераторы статических сайтов с поддержкой Markdown.
Комментарии
comments powered by Disqus