機械学習および データマイニング |
---|
Category:データマイニング |
アンサンブル・ラーニングはアンサンブル・メソッドを用いた機械学習である。統計や機械学習で使われるアンサンブル・メソッドでは、さまざまな学習アルゴリズムの有限集合を使用することで、単一の学習アルゴリズムよりも優れた結果を得る [1]。一連のアルゴリズムの計算は、単一のアルゴリズムの計算よりも時間がかかるが、より浅い計算深度で、ほぼ同等の良好な結果を得ることができる。
アンサンブル・ラーニングの重要な応用領域は、決定木である。大きな決定木は、ルートからリーフまで多くの決定ノードがあり、それらすべてが不確実性の下でトラバースされるため、エラー率と分散が大きくなる傾向がある。たとえば、バギングは多くの小さな決定木を計算し、それらの結果の平均を使用する。これにより、分散(したがってエラー率)が大幅に減少する。
ベイズ最適分類器は、常に次の式の最適解を返す。
他のアンサンブルが平均してこの方法を上回ることはできないことを示すことができる。しかし、残念ながら、この方法は、仮説空間内のすべての仮説について反復処理を行い、ほとんどの場合、この空間が大きすぎるため、実際には使用できない。
バギングは、回帰モデルまたは分類モデルからの複数の予測を組み合わせ、各予測に均等に重み付けし、最後に予測を平均化する [2]。
ブースティングは、多くの弱い分類子を1つの強い分類子にマージする。この一般的な手法にはさまざまな実装があり、最も一般的な実装はAdaBoostである。