![]() | この記事はカテゴライズされていないか、不十分です。 |
コサイン類似度(コサインるいじど、Cosine similarity)はデータ分析において、内積空間で定義される二つの非零ベクトル間の類似度の尺度である。
コサイン類似度は、二つのベクトルのなす角度のコサイン値である。つまり、二つのベクトルのドット積をその大きさの積で割ったものであり、コサイン類似度はベクトルの大きさには依存せず、なす角度にのみ依存する。コサイン類似度は常に区間の値をとる。例えば、二つの比例関係にあるベクトルのコサイン類似度は1であり、直交するベクトルの類似度は0、反対を向くベクトルの類似度は-1である。ベクトルの成分が負の値になり得ない状況においては、コサイン類似度はの値を取る。
情報検索やテキストマイニングの文脈においては、各単語に異なる座標を割り当て、文書をその文書内での各単語の出現回数のベクトルで表す。コサイン類似度は二つの文書が、文書の長さに関わらず、その主題についてどの程度類似しているかについての有用な尺度を与える[1]。
この技術は、データマイニングの分野においてクラスタ内の凝集度を測定するためにも使用される[2]。
コサイン類似度の利点の一つとしては、計算複雑性が低く、特に疎なベクトルについてはゼロでない属性についてのみ考慮すれば良いという点が挙げられる。
コサイン類似度の別名としては、Orchini類似度や、Tucker合同係数などがあり、大塚-落合類似度はバイナリデータに対して適用されるコサイン類似度である。
![]() | この節の加筆が望まれています。 |
![]() | この節の加筆が望まれています。 |