Błąd modelu dekomponuje się na jego obciążenie i wariancję, oraz błąd nieredukowalny. Minimalizacja błędu modelu wiąże się z wyważeniem kompromisu pomiędzy komponentem obciążenia i wariancji.Wraz ze wzrostem liczby stopni swobody modelu (na osi X), jego dopasowanie w próbie która służy do pierwszej estymacji polepsza się (niebieska linia), ale dopasowanie do nowych danych z całej populacji zmniejsza się tylko do pewnego momentu, aby odtąd wzrastać (czerwona linia). Jest to zjawisko nadmiernego dopasowania do próby treningowej i ilustracja kompromisu między obciążeniem a wariancją.
Kompromis między obciążeniem a wariancją (in. przetarg, dylemat, ang. bias-variance tradeoff) – problem leżący u podstaw modelowania w statystyce i uczeniu maszynowym, który polega na sprzeczności między redukcją obciążenia i wariancji estymatorów statystycznych. Do wysokiego błędu modelu poza próbą treningową może prowadzić zarówno jego nadmierne uproszczenie (wysokie obciążenie), jak i nadmiernie szczegółowa wrażliwość (wysoka wariancja). Choć obciążenie jest z zasady niepożądane, niepożądana jest także wariancja estymatora. Estymator o najmniejszym obciążeniu nie musi być w praktyce najlepszym narzędziem wobec badanego problemu, co obrazuje np. paradoks Steina.
Choć przykłady tego zjawiska były znane już wcześniej, jego konceptualizację jako „kompromis” wprowadzili do nauki S. Geman, E. Bienenstock i R. Doursat w 1992 r., w publikacji dotyczącej błędu uczenia sieci neuronowych[3].
Dekompozycja błędu na obciążenie i wariancję modelu
Funkcja oczekiwanego błędu średniokwadratowego estymatora poddaje się matematycznej dekompozycji na sumę trzech komponentów: obciążenia i wariancji modelu, oraz błędu nieredukowalnego –, tj. wariancji charakteryzującej pomiary, a nie model statystyczny.
Przy notacji, w której prawdziwa funkcja jej obserwacja z błędem losowym oraz estymator
Obciążenie i wariancja modelu są funkcją jego złożoności, której zgeneralizowaną miarą może być efektywna liczba parametrów (in. efektywna liczba stopni swobody) Dla modelu liniowego w którym to macierz o wymiarach N × N, efektywna liczba parametrów jest zdefiniowana jako ślad tej macierzy, W mierze tej regresja z regularyzacją ma mniejszą efektywną liczbę parametrów (efektywną liczbę stopni swobody) niż zwykła regresja. Model o wysokiej efektywnej liczbie parametrów cechuje się większą wariancją i niższym obciążeniem – i vice versa. Miara ten pozwala zoptymalizować złożoność modelu np. przy pomocy kryterium informacyjnego Akaike (AIC) lub bayesowskiego kryterium informacyjnego Schwarza (BIC)[1].
Wyprowadzenie dla błędu średniokwadratowego w modelu liniowym
Kompromis między obciążeniem a wariancją przedstawia konceptualizację podstawowego problemu statystyki i uczenia maszynowego jakim jest wybór modelu o optymalnej efektywności. Techniki pozwalające poradzić sobie z kompromisem to m.in. regularyzacja, sprawdzian krzyżowy, optymalizacja kryteriów informacyjnych takich jak AIC czy BIC, oraz bagging (bootstrap) i metody zespołowe[1].
↑ abc7. Model Assessment and Selection, [w:] TrevorT.HastieTrevorT., RobertR.TibshiraniRobertR., JeromeJ.FriedmanJeromeJ., The elements of statistical learning: data mining, inference, and prediction, Second edition, New York, ISBN 978-0-387-84857-0, OCLC300478243 [dostęp 2019-02-21]. Brak numerów stron w książce
↑GerdG.GigerenzerGerdG., HenryH.BrightonHenryH., Homo Heuristicus: Why Biased Minds Make Better Inferences, „Topics in Cognitive Science”, 1 (1), 2009, s. 107–143, DOI: 10.1111/j.1756-8765.2008.01006.x [dostęp 2019-02-21](ang.).