跨語檢索,或稱「跨語資訊檢索」(Cross-Language Information Retrieval,CLIR),其定義採用 Oard, D. W.在1997年發表的文章《Cross-Language Information Retrieval Defined》[1]。跨語檢索意指使用者使用某種自然語言的檢索詞彙檢索由另一種語言表達的文件。
舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。
1969年,Salton,G.發表《Automatic processing of foreign language documents》[2]文章。Salton 以智能文本信息检索系統當作實驗對象,智能檢索系統背後有多國語言語料庫的支援,藉由該系統,Salton 使用英文為主要檢索詞彙的語言,檢索德文的文件和資料,反之亦然。實驗結果發現,採用全自動文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統可以用相對簡單而有效率的方式,進行文獻索引、分類、搜尋,和檢索等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。
1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱 NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱 DARDA ] 合作舉辦「文字檢索會議」(The Text REtrieval Conference, TREC[3]),一開始是附屬於 TIPSTER Text program[4]底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援資訊檢索相關研究,提供標準測試集協助研究者進行測試等。
1996年,美國計算機協會(Association of Computing Machinery,ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現以跨語檢索為研究主題的研討會,與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》[5]找到。
1998年,召開第一次 NII Test Collection for IR Systems program 會議(NTCIR)[6]。NTCIR會議主要是由日本學術振興會(JSPS[7])、日本國家科學資訊系統中心(NACSIS),以及日本國立情報學研究所(NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以日文為主的標準測試集。至今,已發展出NTCIR1~6的文件集。
2000年,歐盟成立「跨語言資訊檢索論壇」(Cross Language Evaluation Forum,CLEF[8]) ,每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱文本信息檢索(text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖像檢索(Cross-Language Image Retrieval] )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語系為主的單語資訊檢索系統(monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的數位圖書館 (digital library)計畫中。
跨語檢索的特徵,根據陳信希教授在2002年的《跨語檢資訊檢索:理論、技術與應用》[9]這篇文章指出,共具有六項特徵,將內容統整如下:
根據陳信希和陳光華的文章,目前跨語檢索相關技術,可分成三大類,分述如下: