M4 · Data-Driven Decision Making

4 уровня аналитики

Descriptive

«Что произошло». Отчёты, BI. База, но сама не решает.

Predictive

«Что произойдёт». ML, regression, forecasts.

Prescriptive

«Что делать». Optimization, simulation + ML.

Autonomous

AI-агенты с решениями в рамках политик.

Descriptive — центр + разброс

Mean = Σx/n · Median = 50-й перцентиль · Mode = самое частое
Std σ = √(Σ(x − mean)²/n) · CV = σ / mean

Mean Mean — среднее арифметическое Median Median — медиана (50-й перцентиль) Mode Mode — мода (самое частое значение) σ Standard Deviation — стандартное отклонение CV Coefficient of Variation — коэффициент вариации (безразмерный разброс) n Sample Size — объём выборки

Экономический смысл: среднее искажают выбросы (средний доход в России ≫ медианный). Медиана устойчивее. Std = разброс в тех же единицах. CV = безразмерный разброс, позволяет сравнивать риски разных величин (зарплаты vs курсы валют).

Распределения

Normal (68-95-99.7 rule) — классическая гипотеза для «средних», центральная предельная теорема. Lognormal — доходы, цены (нельзя отрицательные). Power law — доли рынка, размеры городов, богатство. Poisson — редкие события (аварии, звонки в call-центр).

Hypothesis testing

H₀ (null) vs H₁ (alternative)
p-value = P(данные | H₀ верно)
Reject H₀ if p < α (обычно 0.05)

H₀ Null Hypothesis — нулевая гипотеза (нет эффекта) H₁ Alternative Hypothesis — альтернативная гипотеза p-value p-value — вероятность наблюдать такие данные при верной H₀ α Significance Level — уровень значимости (обычно 0.05)

Экономический смысл: p-value — не вероятность того, что гипотеза верна. Это вероятность увидеть такие данные если H₀ верна. Маленький p → данные «странные» для H₀ → отвергаем. Type I (α) — ложная тревога. Type II (β) — пропущенная цель. Power = 1 − β.

Linear regression

y = β₀ + β₁·x₁ + ... + β_n·x_n + ε
R² = 1 − SSresidual / SStotal

y Dependent Variable — зависимая переменная (то, что предсказываем) β₀ Intercept — свободный член β_i Regression Coefficients — коэффициенты регрессии x_i Features / Predictors — независимые переменные (признаки) ε Error Term — случайная ошибка модели R² Coefficient of Determination — коэффициент детерминации (доля объяснённой дисперсии) SSresidual Sum of Squared Residuals — сумма квадратов остатков SStotal Total Sum of Squares — общая сумма квадратов

Интерпретация: β₁ — на сколько изменится y при изменении x₁ на единицу, при прочих равных. R² — доля дисперсии y, объяснённая моделью. Важно: значимый коэффициент ≠ большой коэффициент ≠ причинная связь.

Logistic regression

P(y=1) = 1 / (1 + e^{−(β₀ + β₁x₁ + ...)})

P(y=1) Probability — вероятность положительного исхода (y = 1) e Euler's Number — число Эйлера (≈ 2.718) β₀ Intercept — свободный член β_i Regression Coefficients — коэффициенты (exp(β) = odds ratio) x_i Features / Predictors — независимые переменные

Для бинарных исходов (клиент купит или нет, кредит вернёт или нет). Коэффициент β₁ интерпретируется через odds ratio: exp(β₁) — во сколько раз меняются шансы (odds = P/(1−P)) при изменении x на 1.

4 причины увидеть корреляцию без причины

Reverse causality

Не X → Y, а Y → X. «Полиция приезжает на все ограбления» — и что?

Confounder

Z влияет на оба. Мороженое → утопление? Оба растут летом.

Selection bias

Мы выбрали не случайную выборку. Самолёты с дырами от пуль в крыльях — но не в двигателях (Wald).

Случайность

На больших данных всегда найдутся случайные корреляции. Spurious correlations.

Золотой стандарт — RCT

Randomized Controlled Trial: случайно делим на treatment и control. Случайность нейтрализует confounders. Но RCT часто невозможен (этика, масштаб).

Quasi-experiments

Difference-in-Differences (DiD) — сравниваем изменения в treated vs control до и после intervention
Regression Discontinuity (RD) — объекты чуть выше/ниже порога как почти-случайное назначение
Instrumental Variables (IV) — находим переменную, коррелирующую с treatment, но не с исходом напрямую
Propensity Score Matching — сопоставляем treated с похожими по observables control

«Correlation does not imply causation — but it sure is a hint.»xkcd · but also every econometrics textbook

Supervised learning

Регрессия (continuous y): linear, decision tree, random forest, gradient boosting (XGBoost, LightGBM). Классификация (categorical y): logistic, SVM, decision tree, ensemble methods. Метрики: регрессия — RMSE, MAE, R²; классификация — accuracy, precision, recall, F1, ROC-AUC.

Precision vs Recall — когда что

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
F1 = 2 · P · R / (P + R)

Precision (P) Precision — точность (доля верных среди помеченных положительными) Recall (R) Recall / Sensitivity — полнота (доля найденных среди реально положительных) F1 F1 Score — гармоническое среднее precision и recall TP True Positive — истинно-положительные FP False Positive — ложноположительные (ложная тревога) FN False Negative — ложноотрицательные (пропуск)

Экономический смысл: precision — «из тех, кого назвали больными, реально больны»; recall — «из реально больных мы нашли». Для рака грудь: важнее recall (пропустить хуже, чем ложная тревога). Для спам-фильтра: precision (удалить важное письмо хуже, чем пропустить спам).

Unsupervised learning

Clustering (k-means, hierarchical, DBSCAN) — сегментация клиентов без заранее заданных меток. Dimensionality reduction (PCA, t-SNE, UMAP) — сжатие сотен признаков в 2–3 интерпретируемые оси.

Overfitting и regularization

Модель, идеально подогнанная под train, плохо работает на test. Bias-variance trade-off: сложная модель = low bias, high variance. Решения: train/val/test split, cross-validation, regularization (L1 = Lasso, L2 = Ridge), early stopping.

Feature importance и interpretability

SHAP values — вклад каждой feature в prediction. Работает для любых моделей. Стандарт де-факто для «объяснимого ML». LIME — локальная линейная аппроксимация. Business requirement: модель должна не только хорошо предсказывать, но и быть объяснимой — особенно для кредитных решений, HR, здравоохранения (регуляторы требуют).

Design: A/B test

Гипотеза: «новая кнопка увеличит конверсию»
Метрика: конверсия (primary) + guardrail метрики (время загрузки, ошибки)
Sample size: power calculation → сколько пользователей нужно для detection MDE (minimum detectable effect)
Рандомизация: на уровне user, не session. Consistent assignment.
Длительность: минимум 1 неделя (weekly patterns), обычно 2
Анализ: t-test или bootstrap. Проверить AA тестом что рандомизация не сломана.

n = 16 · σ² / MDE² (для 80% power, α = 0.05)

n Sample Size — размер выборки на вариант σ Standard Deviation — стандартное отклонение метрики MDE Minimum Detectable Effect — минимальный обнаруживаемый эффект power Statistical Power — мощность теста (1 − β) α Significance Level — уровень значимости

Экономический смысл: чтобы заметить эффект 1% при стандартной девиации 10% — нужно 16 · 100 / 1 = 1 600 пользователей на вариант. Маленькие эффекты требуют много данных.

Частые ошибки A/B

Peeking — смотрим каждый день и останавливаем когда «значимо». Увеличивает false positive rate в разы. Решение: последовательное тестирование (Bayesian или α-spending). Simpson's paradox — эффект в сегменте может быть противоположен эффекту в целом. Novelty effect — новое всегда работает первую неделю, потом эффект исчезает.

System 1 vs System 2 (Kahneman)

System 1 — быстрое, интуитивное, эмоциональное. Распознавание лиц, чтение короткого текста, оценка ситуации. System 2 — медленное, аналитическое, энергозатратное. Умножение в уме, сложные решения. По Kahneman, мы переоцениваем долю System 2 в своих решениях.

Главные cognitive biases

Confirmation bias

Ищем данные, подтверждающие нашу гипотезу. Игнорируем противоречащие.

Anchoring

Первое число, услышанное, влияет на последующие оценки. Стартовая цена в переговорах.

Availability heuristic

Оцениваем вероятность по лёгкости, с которой вспоминается пример. После авиакатастрофы боимся летать.

Loss aversion

Потеря ощущается в 2× сильнее выгоды того же размера. Приводит к sunk cost fallacy.

Overconfidence

85% менеджеров считают себя выше среднего. Планирование fallacy.

Hindsight bias

«Я так и знал, что это произойдёт». Искажает оценку прошлых решений.

Debiasing — как с этим бороться

Premortem: «Представьте что через год проект провалился. Почему?»
Reference class forecasting: как завершились похожие проекты? (а не ваш оптимистичный прогноз)
Red team: специально назначенная команда ищет слабые места решения
Структурированные решения: заранее определённые critería, не «чувствуется правильно»

«The most important thing to know about Prospect Theory: losses hurt about twice as much as gains feel good.»Daniel Kahneman

Ключевые тезисы

Десять для памяти

4 уровня аналитики: Descriptive → Predictive → Prescriptive → Autonomous.

p-value — не вероятность гипотезы. Это вероятность данных если H₀ верна.

Correlation ≠ causation. 4 причины: reverse, confounder, selection, random.

RCT — золотой стандарт. DiD, RD, IV, PSM — квази-эксперименты.

Precision vs Recall. Для рака — recall. Для спама — precision.

Overfitting: train/val/test, CV, regularization (L1/L2).

SHAP — стандарт для объяснимости ML моделей.

Sample size ~ σ² / MDE². Маленький эффект → много данных.

System 1 (fast, intuitive) vs System 2 (slow, analytical). Переоцениваем System 2.

Loss aversion: потеря болит в 2× сильнее выгоды того же размера.

Решения на данных

От описания к решению

Statistics, regression