Дилемма смещения-дисперсии

Функция и данные с шумом.

разброс = 5

разброс = 1

разброс = 0.1

Функция (красный цвет) аппроксимирована с помощью радиально-базисных функций (РБФ) (синий цвет). На каждом графике показано несколько испытаний. Для каждого испытания в качестве тренировочного набора использовались некоторые точки из выборки с шумом (верхний график). При широком разбросе (график 2) смещение высоко, РБФ не могут полностью аппроксимировать функцию (особенно центральную яму), но дисперсия между испытаниями мала. По мере уменьшения разброса (графики 3 и 4) смещение уменьшается, синяя кривая ближе аппроксимирует красную кривую. Однако дисперсия между испытаниями растёт. На нижнем графике приближённое значение в точке x=0 сильно зависят от расположения точек выборки.

Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных (то есть подвержены переобучению), и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника ошибки^[англ.], которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.

Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный шум^[англ.] в тренировочном наборе, а не желаемый результат (переобучение).

Разложение смещения-дисперсии — это способ анализа ожидаемой ошибки обобщения^[англ.] алгоритма обучения для частной задачи сведением к сумме трёх членов — смещения, дисперсии и величины, называемой неустранимой погрешностью, которая является результатом шума в самой задаче.

Дилемма возникает во всех формах обучения с учителем — в классификации, регрессии (аппроксимация функции)^[1]^[2] и в структурном прогнозировании. Дилемма также используется для объяснения эффективности эвристики при обучении людей^[3].

Побудительные причины

Дилемма смещения-дисперсии является центральной проблемой в обучении с учителем. Выбираемая модель должна, с одной стороны, точно уловить все закономерности в обучающих данных, а с другой стороны — обобщить закономерности на неизвестные данные. К сожалению, обычно это невозможно сделать одновременно. Методы обучения с высокой дисперсией могут хорошо представлять тренировочный набор, но имеют риск быть переобученными для данных с шумом или непрезентативных данных. В отличие от них, алгоритмы с низкой дисперсией обычно дают более простые модели, не склонно к переобучению, но может оказаться недообученным, что приводит к пропуску важных свойств.

Модели с малым смещением обычно более сложны (например, в них регрессионные многочлены имеют более высокий порядок), что позволяет им представлять тренировочное множество более точно. Однако они могут иметь большую компоненту шума^[англ.] тренировочного набора, что делает предсказание менее точным вопреки добавленной сложности. Для контраста, модели с высоким смещением относительно более просты (имеют многочлены меньшего порядка или даже линейные), но могут давать низкую дисперсию предсказаний, если применяются вне тренировочного набора.

Разложение смещения-дисперсии квадратичной ошибки

Предположим, что у нас есть тренировочное множество, состоящее из набора точек ${\displaystyle x_{1},\dots ,x_{n))$ и вещественных значений ${\displaystyle y_{i))$ , связанных с каждой из этих точек ${\displaystyle x_{i))$ . Мы предполагаем, что есть функция с шумом $y=f(x)+\varepsilon$ , где шум $\varepsilon$ имеет нулевое среднее и дисперсию ${\displaystyle \sigma ^{2))$ .

Мы хотим найти функцию ${\hat {f))(x)$ , которая аппроксимирует истинную функцию $f(x)$ настолько хорошо, насколько возможно, в смысле некоторого алгоритма обучения. Мы делаем понятие «настолько хорошо, насколько возможно» точным путём измерения среднеквадратичной ошибки^[англ.] между $y$ и ${\hat {f))(x)$ — мы хотим, чтобы значение ${\displaystyle (y-{\hat {f))(x))^{2))$ было минимальным как для точек ${\displaystyle x_{1},\dots ,x_{n))$ , так и за пределами нашей выборки. Естественно, мы не можем сделать это идеально, поскольку ${\displaystyle y_{i))$ содержит шум $\varepsilon$ . Это означает, что мы должны быть готовы принять неустранимую ошибку в любой функции, с которой будем работать.

Поиск функции ${\hat {f))$ , которая обобщается для точек вне тренировочного набора, может быть осуществлён любым из несчётного числа алгоритмов, используемых для обучения с учителем. Оказывается, что какую бы функцию ${\hat {f))$ мы ни выбрали, мы можем разложить её ожидаемую ошибку на непросмотренном экземпляре данных $x$ следующим образом:^[4]^[5].

{\begin{aligned}\operatorname {E} {\Big [}{\big (}y-{\hat {f))(x){\big )}^{2}{\Big ]}&={\Big (}\operatorname {Bias} {\big [}{\hat {f))(x){\big ]}{\Big )}^{2}+\operatorname {Var} {\big [}{\hat {f))(x){\big ]}+\sigma ^{2}\\\end{aligned))

,

где

{\begin{aligned}\operatorname {Bias} {\big [}{\hat {f))(x){\big ]}=\operatorname {E} {\big [}{\hat {f))(x)-f(x){\big ]}\end{aligned))

и

{\begin{aligned}\operatorname {Var} {\big [}{\hat {f))(x){\big ]}=\operatorname {E} [{\hat {f))(x)^{2}]-{\Big (}\operatorname {E} [{\hat {f))(x)]{\Big )}^{2}\end{aligned))

Математические ожидания пробегают разные варианты выбора тренировочного набора ${\displaystyle x_{1},\dots ,x_{n},y_{1},\dots ,y_{n))$ из одного и того же совместного распределения $P(x,y)$ . Три члена представляют

квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощением предположений, принятых в методе. Например, когда применяется аппроксимация нелинейной функции $f(x)$ при использовании метода обучения для линейных моделей^[англ.], будет появляться ошибка в оценке ${\hat {f))(x)$ как результат такого допущения;
дисперсия метода обучения, или, интуитивно, как далеко метод обучения ${\hat {f))(x)$ уведёт от среднего значения;
неустранимая ошибка ${\displaystyle \sigma ^{2))$ . Поскольку все три величины неотрицательны, они формируют нижнюю границу ожидаемой ошибки на непросмотренных данных^[4].

Чем более сложна модель ${\hat {f))(x)$ , тем больше точек данных она захватывает и тем меньше будет смещение. Однако сложность приводит модель к захвату большего числа точек, а потому её дисперсия будет больше.

Вывод

Вывод разложения смещения-дисперсии для среднеквадратичной ошибки приведён ниже^[6]^[7]. Для удобства введём обозначения $f=f(x)$ и ${\hat {f))={\hat {f))(x)$ . Во-первых, вспомним, что по определению для любой случайной переменной $X$ мы имеем

{\begin{aligned}\operatorname {Var} [X]=\operatorname {E} [X^{2}]-{\Big (}\operatorname {E} [X]{\Big )}^{2}\end{aligned))

Переставив члены получим:

{\begin{aligned}\operatorname {E} [X^{2}]=\operatorname {Var} [X]+{\Big (}\operatorname {E} [X]{\Big )}^{2}\end{aligned))

Поскольку $f$ детерминирована,

{\begin{aligned}\operatorname {E} [f]=f\end{aligned))

.

Тогда из $y=f+\varepsilon$ и $\operatorname {E} [\varepsilon ]=0$ вытекает, что $\operatorname {E} [y]=\operatorname {E} [f+\varepsilon ]=\operatorname {E} [f]=f$ .

Но поскольку $\operatorname {Var} [\varepsilon ]=\sigma ^{2},$ , получаем

{\begin{aligned}\operatorname {Var} [y]=\operatorname {E} [(y-\operatorname {E} [y])^{2}]=\operatorname {E} [(y-f)^{2}]=\operatorname {E} [(f+\varepsilon -f)^{2}]=\operatorname {E} [\varepsilon ^{2}]=\operatorname {Var} [\varepsilon ]+{\Big (}\operatorname {E} [\varepsilon ]{\Big )}^{2}=\sigma ^{2}\end{aligned))

Так как $\varepsilon$ и ${\hat {f))$ независимы, мы можем записать

{\begin{aligned}\operatorname {E} {\big [}(y-{\hat {f)))^{2}{\big ]}&=\operatorname {E} [y^{2}+{\hat {f))^{2}-2y{\hat {f))]\\&=\operatorname {E} [y^{2}]+\operatorname {E} [{\hat {f))^{2}]-\operatorname {E} [2y{\hat {f))]\\&=\operatorname {Var} [y]+\operatorname {E} [y]^{2}+\operatorname {Var} [{\hat {f))]+\operatorname {E} [{\hat {f))]^{2}-2f\operatorname {E} [{\hat {f))]\\&=\operatorname {Var} [y]+\operatorname {Var} [{\hat {f))]+{\Big (}f^{2}-2f\operatorname {E} [{\hat {f))]+\operatorname {E} [{\hat {f))]^{2}{\Big )}\\&=\operatorname {Var} [y]+\operatorname {Var} [{\hat {f))]+(f-\operatorname {E} [{\hat {f))])^{2}\\&=\sigma ^{2}+\operatorname {Var} [{\hat {f))]+\operatorname {Bias} [{\hat {f))]^{2}\end{aligned))

Применение для регрессии

Разложение смещения-дисперсии образует концептуальный базис для методов регуляризации регрессии, таких как Lasso и гребневая регрессия. Методы регуляризации вносят смещение в решение регрессии, которое может значительно уменьшить дисперсию по сравнению с обычным методом наименьших квадратов^[англ.] (ОМНК, англ. Ordinary Least Squares, OLS). Хотя решение ОМНК даёт несмещённую оценку регрессии, решения с меньшей дисперсией, полученные путём регуляризации, обеспечивают превосходную среднеквадратичную ошибку.

Применение для классификации

Разложение смещение-дисперсия первоначально было сформулировано для линейной регрессии методом наименьших квадратов. Для случая классификации с 0-1 функцией потерь (доля неправильно классифицированных), можно найти похожее разложение^[8]^[9]. Альтернативно, если задача классификации может быть сформулирована как вероятностная классификация, ожидание квадрата ошибки предсказанных вероятностей по отношению к истинным вероятностям может быть разложено как и ранее^[10].

Подходы

Снижение размерности и отбор признаков могут уменьшить дисперсию путём упрощения моделей. Аналогично, больше тренировочное множество приводит к уменьшению дисперсии. Добавление признаков (предсказателей) ведёт к уменьшению смещения за счёт увеличения дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию. Например,

(Обобщённые) линейные модели могут быть регуляризованы для уменьшения дисперсии за счёт увеличения смещения ^[11].
в искусственных нейронных сетях дисперсия увеличивается и смещение уменьшается с увеличением числа скрытых единиц^[1]. Подобно обобщённым линейным моделям для них тоже обычно применяется регуляризация.
В моделях k ближайших соседей большое значение k ведёт к большому смещению и низкой дисперсии (см. ниже).
В обучении на примерах, регуляризация может быть получена путём смешения прототипов и примеров^[12].
В деревьях решений глубина дерев определяет дисперсию. Деревья решений обычно обрезаются для контроля дисперсии^[13].

Один из способов разрешения дилеммы — использование смешанных моделей^[англ.] и ансамблевого обучения^[14]^[15]. Например, бустинг комбинирует несколько «слабых» (с высоким смещением) моделей в сборку, которая имеет более низкое смещение, чем каждая из индивидуальных моделей, в то время как бэггинг комбинирует «строгое» обучение так, что уменьшается дисперсия.

k-ближайших соседей

В случае регрессии k-ближайших соседей существует выражение в замкнутой форме, связывающее разложение смещение-дисперсия с параметром k^[5]:

{\displaystyle \operatorname {E} [(y-{\hat {f))(x))^{2}\mid X=x]=\left(f(x)-{\frac {1}{k))\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2)){k))+\sigma ^{2))

где $N_{1}(x),\dots ,N_{k}(x)$ являются k ближайшими соседями x в тренировочном наборе. Смещение (первый член) является монотонно возрастающей функцией от k, в то время как дисперсия (второй член) убывает по мере роста k. Фактически, при «разумных предположениях» оценщика смещения ближайшего соседа (1-NN) полностью обращается в нуль, когда размер тренировочного множества стремится к бесконечности^[1].

Применение для обучения людей

В то время как дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, она была проверена в контексте когнитивных способностей человека, прежде всего Гердом Гигеренцером с соавторами. Они утверждают, что (см. ссылки ниже) человеческий мозг решает дилемму в случае разреженных плохо описанных тренировочных наборов, полученных в результате личного опыта, путём использования эвристики высокого смещения/низкой дисперсия. Это отражает факт, что подход с нулевым смещением имеет плохую обобщаемость к новым ситуациям, а также беспричинно предполагает точное знание состояния мира. Получающаяся эвристика относительно проста, но даёт лучшее соответствие широкому разнообразию ситуаций^[3].

Гиман и др.^[1] возражают, что из дилеммы смещения-дисперсии следует, что такие возможности, как распознавание общих объектов, не может быть получено с нуля, а требует определённого «жёсткого монтажа», который затем превращается в опыт. Именно поэтому подходы к заключениям без модели требуют неоправданно больших наборов тренировочных наборов, если нужно избежать высокой дисперсии.

См. также

Точность
Несмещённая оценка
Теорема Гаусса — Маркова
Оптимизация гиперпараметров
Несмещённая оценка минимальной дисперсии^[англ.]
Выбор модели
Валидация регрессионной модели^[англ.]
Обучение с учителем

Метод максимального правдоподобия

Примечания

↑ ¹ ² ³ ⁴ Geman, Bienenstock, Doursat, 1992, с. 1–58.
↑ Encyclopedia of Machine Learning, 2011, с. 100—101.
↑ ¹ ² Gigerenzer, Brighton, 2009, с. 107–143.
↑ ¹ ² James, Witten, Hastie, Tibshirani, 2013, с. 34.
↑ ¹ ² Hastie, Tibshirani, Friedman, 2009, с. 223.
↑ Vijayakumar, 2007.
↑ Shakhnarovich, 2011.
↑ Domingos, 2000.
↑ Valentini, Dietterich, 2004, с. 725–775.
↑ Manning, Raghavan, Schütze, 2008, с. 308–314.
↑ Belsley, 1991.
↑ Gagliardi, 2011, с. 123–139.
↑ James, Witten, Hastie, Tibshirani, 2013, с. 307.
↑ Ting, Vijaykumar, Schaal, 2011, с. 615.
↑ Fortmann-Roe, 2012.

Литература

Stuart Geman, Bienenstock E., Doursat R. Neural networks and the bias/variance dilemma // Neural Computation. — 1992. — Т. 4. — doi:10.1162/neco.1992.4.1.1.
Bias–variance decomposition // Encyclopedia of Machine Learning. — 2011.
Gerd Gigerenzer, Henry Brighton. Homo Heuristicus: Why Biased Minds Make Better Inferences. — 2009. — Т. 1. — doi:10.1111/j.1756-8765.2008.01006.x. — PMID 25164802.
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning. — Springer, 2013.
Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. — 2009. Архивная копия от 26 января 2015 на Wayback Machine
Sethu Vijayakumar. The Bias–Variance Tradeoff. — University Edinburgh, 2007.
Greg Shakhnarovich. Notes on derivation of bias-variance decomposition in linear regression. — 2011. Архивировано 21 августа 2014 года.
David Belsley. 7Conditioning diagnostics : collinearity and weak data in regression. — New York: Wiley, 1991. — ISBN 978-0471528890.
Pedro Domingos. A unified bias-variance decomposition // ICML. — 2000.
Giorgio Valentini, Thomas G. Dietterich. Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods // JMLR. — 2004. — Т. 5.
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. — Cambridge University Press, 2008.
Gagliardi F. Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction // Artificial Intelligence in Medicine. — 2011. — Т. 52, вып. 3. — doi:10.1016/j.artmed.2011.04.002.
Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal. Locally Weighted Regression for Control. In Encyclopedia of Machine Learning / Claude Sammut, Geoffrey I. Webb.. — Springer, 2011. — С. 615.
Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff. — 2012.

Для улучшения этой статьи желательно: Проверить качество перевода с иностранного языка.Исправить статью согласно стилистическим правилам Википедии.После исправления проблемы исключите её из списка. Удалите шаблон, если устранены все недостатки.

Категории

[_7e17cba62f52ce08-1] ¹ ² ³ ⁴ Geman, Bienenstock, Doursat, 1992, с. 1–58.

[_0bdc58b6b5e67232-2] Encyclopedia of Machine Learning, 2011, с. 100—101.

[_50e600603fcd9820-3] ¹ ² Gigerenzer, Brighton, 2009, с. 107–143.

[_e0d13b4e999a5676-4] ¹ ² James, Witten, Hastie, Tibshirani, 2013, с. 34.

[_0cdfbfb7c8cc36a0-5] ¹ ² Hastie, Tibshirani, Friedman, 2009, с. 223.

[_18fcb6f9bbc04d70-6] Vijayakumar, 2007.

[_1f1aab5be31c17ae-7] Shakhnarovich, 2011.

[_0a3ceec4a8e591f1-8] Domingos, 2000.

[_0e0ff8e05bb04540-9] Valentini, Dietterich, 2004, с. 725–775.

[_c81fb40f55d96539-10] Manning, Raghavan, Schütze, 2008, с. 308–314.

[_e8e7e6fcce23b285-11] Belsley, 1991.

[_547df2e045cb0179-12] Gagliardi, 2011, с. 123–139.

[_9dde388f0140e381-13] James, Witten, Hastie, Tibshirani, 2013, с. 307.

[_0b3ff1b69a612f80-14] Ting, Vijaykumar, Schaal, 2011, с. 615.

[_7fc60aa33a9522e6-15] Fortmann-Roe, 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Дилемма смещения-дисперсии

Материал из Википедии — свободной энциклопедии

Побудительные причины

Разложение смещения-дисперсии квадратичной ошибки

Вывод

Применение для регрессии

Применение для классификации

Подходы

k-ближайших соседей

Применение для обучения людей

См. также

Примечания

Литература

Suggest as cover photo

Thank you for helping!

Install Wikiwand

Don't forget to rate us

Tell your friends about Wikiwand!

Enjoying Wikiwand?

Tell your friends and spread the love:

Your preferred languages

All languages

Follow Us

Don't forget to rate us

Our magic isn't perfect

Thank you for helping!

Oh no, there's been an error