文書検索

文書検索(ぶんしょけんさく、: document retrieval)は、自由な書式の文書群に対するユーザーの何らかのクエリについて照合を行うこと。文書はどんな形式でもよいが、主に自然言語で書かれたもので、ニュース記事、不動産情報、マニュアルなど様々なものが考えられる。ユーザーのクエリは、必要な情報に関する複数の文から成る完全な説明や、いくつかの単語まで様々である。

文書検索はテキスト検索(text retrieval)の一部または同義とされることもある。テキスト検索は情報検索の一部であり、主に自然言語の形で格納された情報を扱う。1980年代全文検索が生まれ、索引作成者の仕事の重要性が低下した。テキストデータベースは、パーソナルコンピュータCD-ROMによって分散化していった。テキスト検索は、インターネット検索エンジンの基盤であるため、今日も重要な研究分野となっている。

概要

[編集]

文書検索システムは、所定の方法で文書とユーザーのクエリの照合をすることで情報を探す。これは、エキスパートシステムが論理的知識ベースでの推論に基づいて質問に答えるのと対照的である。文書検索システムは、文書データベース、全文索引を構築するための分類アルゴリズム、データベースへのアクセス・インタフェースから構成される。

文書検索システムは主に以下の2つのタスクを行う。

  1. ユーザーのクエリに対応した文書を探し出す。
  2. ページランクなどのアルゴリズムを使い、照合結果を評価して、妥当性の順位に従って結果をソートする。

インターネット検索エンジンは文書検索の典型的応用である。今日使われている文書検索システムは、単純な二値判断システムから、統計学的技法や自然言語処理技法を使ったシステムまで、様々なものがある。

検索手法

[編集]

文書検索システムのための索引手法は2つに分類される。形式(または単語)に基づく索引と、内容に基づく索引である。使われている文書分類手法によって文書検索システムの性質が決定される。

形式に基づく文書検索は、文字列検索における部分文字列照合のように、テキストの正確な統語的属性を扱う。テキストは必ずしも自然言語ではなく、例えば分子生物学における化学式の照合を行うシステムもある。形式に基づく索引としては、例えば接尾辞木アルゴリズムがある。

内容に基づく手法は、文書間や文書の部分間での意味的なつながりを扱い、クエリと文書群との意味的つながりを扱う。内容に基づく文書検索システムは、転置インデックスアルゴリズムを使っていることが多い。

例: PubMed

[編集]

PubMed[1] では、"related articles" の検索インタフェースで、文書のタイトル、概要、MeSH用語を単語重み付けアルゴリズムを使って比較する機能を提供している。

脚注

[編集]
  1. ^ PubMed United States National Library of Medicine

関連項目

[編集]

外部リンク

[編集]