此條目需要精通或熟悉计算机科学的编者参与及协助编辑。 (2012年2月18日) |
文字蘊涵(Textual entailment,TE)在自然語言處理是一個文字片段之間的定向關係。擁有一個文字片段的含意時,可以從另一個文字如下關係。TE的框架中,將會導致必須需要的文本被稱為文本(T)和假設(H)作為分別。文字蘊涵是不一樣的純邏輯蘊涵,它有一個更寬鬆的定義:"T推導到H"(T⇒H),通常情況下,如果一個人閱讀T將推斷為H是最有可能的正確的關係[1]。文字蘊含關係是有方向性的,如正向的"T推導到H"或反向的"H推導到T"[2][3]。
自然語言的一個特點是,有許多不同的方式說出你想說什麼:可以通過不同的文字表達相同的含義,可以包含在一個單一的文字和幾個含義。這種語義表達的變化可以看出,作為雙語言歧義的問題。他們一起導致在許多一對多的語言表達和意義之間的映射。正確解釋文本,就需要在理論上深入到了它的含義的邏輯代表性的語義解釋。自然語言處理是確實可行的解決辦法,並在更簡易的方式使用文字蘊涵。
許多自然語言處理的應用程序一樣,問答(QA)的信息抽取(IE)的(多文檔)匯總和機器翻譯(MT)的評價,需要這種可變性現象的一個模型,為了一個特殊目標意思可以從不同的文本變形被推斷。2004年識別文字蘊含(TER)提議作為橫跨許多自然語言處理應用[2]的主要語義推斷需要的一項普通任務。建立文本蘊涵的數學解決方案可以根據這種關係的方向性,然關係的方向所涉及的文字之間的一些相似的比較。
目前RTE在國際間被關注研究應用在不同語言中,如2011年日本NTCIR-9[4]大會就將簡體中文、繁體中文、日文的RTE列為比賽項目。
文本T:日本時間2011年3月11日,日本宮城縣發生芮氏規模9.0強震,造死傷失蹤約3萬多人。
假設H:日本時間2011年3月11日,日本宮城縣發生芮氏規模9.0強震。
文本T:張學友在1961年7月10日,生於香港,祖籍天津。
假設H:張學友生於1960年。
文本T:黎姿與"残障富豪"馬廷強結婚。
假設H:馬廷強為香港"東方報業集團"創辦人之一馬惜如之子。