통계적 학습이론(統計的學習理論, 영어: Statistical learning theory)은 통계학 및 함수해석학 분야에서 기계학습 도면을 위한 체계이다.[1][2] 통계적 학습이론은 데이터에 근거하는 예측함수를 찾는 문제를 다룬다. 통계적 학습이론은 컴퓨터 비전 및 음성인식, 생물정보학, 야구 따위의 스포츠 분야에서 성공적인 응용을 이끌어냈다.[3]
학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.[4] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.
출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 로 파악된다.
분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.
훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.
를 벡터공간의 모든 가능한 입력으로 취하고, 를 벡터공간의 모든 가능한 출력으로 취한다. 통계적 학습이론에서는 곱공간 위에 미지의 확률분포가 존재한다는 관점을 취한다. 이를테면 미지의 가 존재한다. 훈련집합은 이 확률분포 위에 있는 개의 샘플로 이루어져 있고, 다음과 같이 적힌다.
는 훈련집합에서의 입력벡터이며, 는 그것에 상응하는 출력이다.
이러한 형식주의에서, 추론문제(inference problem)는 일 때의 함수 를 찾는 것으로 구성된다. 를 함수의 공간이고 할 때, 는 가설공간(hypothesis space)이라고 불린다. 가설공간은 알고리즘이 검색할 함수의 공간이다. 를 손실함수, 예측치 간의 차이에 대한 측정단위를 , 실제 값을 라고 하자. 기대위험(영어판)은 다음과 같이 정의된다.
목표함수, 즉 선택가능한 최적의 함수 는 이하를 만족할 때 주어진다.
확률분포 는 미지이기 때문에, 기대위험에는 대리측정(proxy measure)이 쓰여야만 한다. 이 측정은, 미지의 확률분포 위에 있는 샘플들로 이루어진 훈련집합에 기초한다. 이는 경험적 위험(영어판)이라고 불린다.
경험적 위험(empirical risk)을 최소화하는 함수 를 선택하는 학습 알고리즘을 경험적 위험 최소화(영어판)라고 부른다.
기계학습 문제에서 발생하는 주요한 문제로는 과적합이 있다. 학습은 예측문제이므로, 학습목표는 (전례가 있는) 데이터에 최적인 함수를 찾지 않고 미래의 입력의 결과를 가장 정확하게 예측할 수 있는 함수를 얻는 것이다. 경험적 위험 최소화는, 이러한 과적합의 위험을 갖는다. 즉, 데이터와 정확히 일치하지만 미래의 출력을 잘 예측하지 못하는 함수를 찾는 것이다.
과적합은 불안정한 해답을 빚을 징후를 보인다. 훈련 집합의 작은 섭동(攝動)은 학습된 함수에 큰 변동을 일으킬 수 있다. 해답의 안정성이 보장될 수 있다면, 일반화와 일관성도 보장된다는 것을 알 수 있다.[6][7] 정칙화는 과적합 문제를 해결하고 문제를 안정화한다.
정칙화는 가설 공간 를 제한함으로써 이루어질 수 있다. 일반적인 예는 를 선형 함수로 제한하는 것이다. 이것은 선형 회귀를 표준 문제로 환원하는 것으로 볼 수 있다. 는 또한 최고차항 의 다항식, 지수함수, 또는 L1으로 구획된 함수로 제한될 수 있다. 가설공간의 제한은 과적합을 회피하는데, 이는 포텐셜 함수(potential function)의 형태가 유한하기 때문이고, 따라서 임의로 0에 근접하는 경험적 위험을 제공하는 함수의 선택을 허용하지 않는다.
↑Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
↑Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2