Протокол статистического анализа данных
Описание
Курс посвящен математическому аппарату статистического анализа данных и особенностях коррект- ного применения соответствующих методов на практике. Курс включает четыре раздела: общая кон- цепция статистики (три основных задачи и базовые инструменты их решения), непараметрические критерии (проверка гипотез согласия, принадлежности параметрическому семейству, однородности и независимости), линейная регрессия (проверка гипотез и снижение размерности в задачах регрес- сии, диагностика модели, преобразование данных и обобщенная линейная модель) и классификация (базовые метрики и методы в задачах классификации). Основной упор теоретической части курса делается на общей структуре имеющихся методов и задач и протоколе применения рассматриваемых подходов, упор практической части – на диагностике и применении описываемых методов. При освоении курса слушатель при желании может сосредоточить основное внимание только на одном из аспектов: прикладном или теоретическом (при этом не полностью игнорируя вторую).
Темы
- Базовая статистика.
- Лекция 1. Статистическая модель. Задачи математической статистики. Точечное оценива- ние и свойства оценок.
- Семинар 1. Практикум. Исследуем оценки, сравниваем их предельные распределения, изу- чаем их свойства.
- Лекция 2. Доверительное оценивание. Основные методы, качество интервалов (включая интервалы в дискретном случае и доверительные множества).
- Семинар 2. Практикум. Строим и исследуем интервальные оценки, сравниваем их длины.
- Лекция 3. Гипотезы. Ошибки, простые и сложные гипотезы. Критерий Неймана-Пирсона. Общий подход к.о.о.п.
- Семинар 3. Строим критерии (аналитически). Сравниваем мощности критериев графиче- ски.
- Согласие, однородность и независимость.
- Лекция 4. Непараметрические гипотезы. Согласие и принадлежность параметрическому семейству.
- Семинар 4. Практикум. Сравнение критериев согласия. Исследование критериев принад- лежности для некоторых семейств.
- Лекция 5. Критерии однородности в одномерном и многомерном случаях.
- Семинар 5. Практикум. Сравнение критериев однородности.
- Лекция 6. Критерии независимости. Коэффициенты корреляции.
- Семинар 6. Практикум. Проверка независимости.
- Лекция 7. Заключение.
- Семинар 7. Контрольное задание.
- Регрессия
- Лекция 8. Регрессия. Взвешенная регрессия. Проверка гипотез в линейной модели. 2. Семинар 8. Практикум. Снижение размерности пространства предикторов.
- Лекция 9. Проверка условий. Преобразования данных.
- Семинар 9. Практикум. Проверка условий модели и преобразования.
- Лекция 10. GLM-модель. Ее диагностика
- Семинар 10. GLM-модель. Диагностика GLM модели. 2
- Лекция 11. Обобщающая лекция по регрессии. 8. Семинар 11. Контрольное задание.
- Классификация
- Лекция 12. Классификация. Метрики. Базовые методы: kNN, LDA, QDA, наивный байес 2. Семинар 12. Базовые методы классификации и их сравнение.
- Лекция 13. Линейные классификаторы. SVC. SVM. Случайные деревья.
- Семинар 13. Практикум. SVC, SVM, деревья и леса.
- Лекция 14. Экзамен. 6. Семинар 14. Экзамен.
Предварительные требования:
-
Математическая статистика: Это курс – дополнительный статистический курс
-
Python: Практические задачи