学問 | |
---|---|
学問: |
自然言語処理 計算言語学 意味論 |
統括組織: | ACL-SIGLEX hhdgdhc |
ワークショップの概要 | |
設立: | 1998 (Senseval) |
最新: |
SemEval-2015 NAACL @ Denver, USA |
予定: | SemEval-2018 |
歴史 | |
Senseval-1 | 1998 @ Sussex |
Senseval-2 | 2001 @ Toulouse |
Senseval-3 | 2004 @ Barcelona |
SemEval-2007 | 2007 @ Prague |
SemEval-2010 | 2010 @ Uppsala |
SemEval-2012 | 2012 @ Montreal |
SemEval-2013 | 2013 @ Atlanta |
SemEval-2014 | 2014 @ Dublin |
SemEval-2015 | 2015 @ Denver |
SemEval-2016 | 2016 @ San Diego |
この項目「SemEval」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:英語版 "SemEval" 13:44, 17 Sep 2020 (UTC)) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2020年11月) |
SemEval (Semantic Evaluation)は、語義評価会のSensevalから発展した、計算意味解析システムの評価会である。この評価は、「言語における意味の本質を探る」ことを目的としている。人間にとって意味は直感的なものであるが、その直感を計算機解析に応用することは元来難しいとされてきた。
この評価は、意味の計算に必要なものを正確に、より正確な言葉で特徴づけるための、意味を伴う計算の問題点と解決策を特定するための創発的なメカニズムを提供している。
またこれらの試みは、私たちの言語の使用に関与する次元をより明確にするために進化してきたが、元々は語義を計算的に識別するという一見単純な試みから始まったものである。
これらは、文中の要素間の相互関係(意味的役割のラベリングなど)、文間の関係(共参照など)、文の本質(意味的関係や意味分析)把握を行うために発展してきた。
SemEvalおよびSensevalの演習の目的は、意味分析(Semantic Analysis)システムを評価することである。ここで「意味分析」とは、意味の形式的な分析を指し、「計算」とは、原理的に効果的な実装を支援するアプローチを指す。 [1]
最初の3つの評価であるSenseval-1からSenseval-3までは、語義曖昧性解消(Word Sense Disambiguation , WSD)に焦点を当てており、毎回、課題の言語数と参加チーム数が増加している。 4番目のワークショップであるSemEval-2007(SemEval-1)から、タスクの性質は、語義曖昧性解消以外の意味分析タスクを含むように進化した。 [2]
SemEvalコミュニティは、*SEM会議の構想をきっかけに、*SEM会議に関連して評価ワークショップを毎年開催することを決定した。但しすべての評価タスクが毎年実施されるわけではないことも決定された。例えば、WSDタスクはSemEval-2012ワークショップには含まれていなかった。
元来、語義曖昧性解消アルゴリズムの品質を評価することは主に本質的な評価の問題であり、それに組み込まれたWSDに関する要素を評価する試みはほとんど行われていなかった。 [3]
エンドユーザーアプリケーションにおけるWSDの価値を示す証拠を提供し始めたのは、ごく最近(2006年)のことである。 [4] 1990年頃まで、語義曖昧性解消タスクの議論は、包括的な評価ではなく、主に実例に焦点を当てていたが、 1990年代初頭には、より体系的で厳密な本質的評価が始まり、曖昧な単語の小さなセットを使ったより正式な実験も行われた。 [5]
1997年4月、マーサ・パーマー(Martha Palmer)とマーク・ライト(Marc Light)は、「語彙的意味論によるタグ付け(Tagging with Lexical Semantics: Why, What, and How? )」と題するワークショップを開催した。[6]当時、手動でアノテーションされたコーパスが品詞タグ付けや構文解析などのNLPの他の分野に革命を起こし、コーパス駆動型のアプローチが自動意味解析にも革命を起こす可能性を秘めていることが明確に認識されていた。 [7] Kilgarriff氏は、「この分野には評価が必要だという高いコンセンサスがあった」と振り返り、Resnik氏とYarowsky氏の実践的な提案をきっかけに議論が始まり、Sensevalの評価演習(evaluation exercises)が生まれたという。[8] [9] [10]
SemEval-2010を経て、多くの参加者が3年周期を「長い」と感じるようになった。Conference on Natural Language Learning (CoNLL) やRecognizing Textual Entailments(RTE) など、他にも多くの共有タスクが毎年開催されている。このため、Semevalのコーディネーターは、タスクオーガナイザーに2年周期と3年周期のどちらかを選択する機会を与え、 [11] SemEvalコミュニティは後者を支持した。SemEvalコミュニティ内の票は3年周期を支持していたが、主催者とコーディネーターはSemEvalタスクを2つの評価ワークショップに分割することに落ち着いた。これは、新しい*SEM会議の導入がきっかけとなった。SemEvalの主催者は、「私たちのイベントを*SEM会議と関連づけ、SemEvalワークショップを*SEM会議と結びつけることが適切である」と考えた。主催者は、毎年開催される*SEMとの関連性についてタスクコーディネーター/主催者と参加者から非常に肯定的な反応を得て、8つのタスクが2012年に変更することを希望した。このような経緯からSemEval-2012とSemEval-2013が誕生した。現在の計画では、毎年のSemEvalスケジュールに切り替えて、*SEM会議との関連付けを行うことになっているが、必ずしもすべてのタスクが毎年実施される必要はない。 [12]
SemEval/Senseval評価ワークショップのフレームワークは、ARPA(Advanced Research Projects Agency、国防高等研究計画庁(DARPA)に名称変更)が実施しているメッセージ理解会議(Message Understanding Conferences, MUC)などの評価ワークショップを模している。
Senseval-1とSenseval-2は、利用可能なコーパスと機械辞書である主要言語でのWSDシステムの評価に焦点を当てた。 Senseval-3では、語彙だけでなく、意味ロール(形式的意味論ではシータロールと呼ばれる)、論理形式の変換(一般的にフレーズや節、文の意味論は一次の論理形式で表現される)、機械翻訳における意味論解析の性能を検討している。
様々な計算意味論システムの種類がWSDのカバー範囲を超えるようになると、SensevalはSemEvalへと発展し、より多くの計算意味論システムの側面が評価されるようになった。
SemEvalの評価演習は、テキストの意味分析における問題点を検討するためのメカニズムを提供する。関心のあるトピックは、形式的な計算意味論に見られる論理的な厳密さには欠けており、人間の言語理解に関連する問題の種類を特定し、特徴付けようとしている。主な目的は、コンピュータシステムを用いて人間の処理を再現することで、タスク(次節で示す)は、特定可能な問題を扱うために、個人やグループによって開発され、それが何らかの具体的な形をとるようになる。
意味分析の最初の主要な分野は、単語レベル(慣用表現を含むと考えられる)での意図した意味の識別である。これは、単語の意味の曖昧性の解消(単語には離散的な意味があり、むしろその単語がどのように使われているか、すなわち文脈によって特徴づけられるという概念から発展)である。この分野のタスクには、語彙サンプルと全単語の曖昧性の判別、複数言語(multi-lingual)と言語間(cross-lingual)の曖昧性の判別、および語彙置換が含まれており、単語感覚の識別が難しい。このため、このトピックに関連する他のタスクには、「単語感覚の誘導」や「下位カテゴリ化の獲得」、「語彙資源の評価」などがある。
意味分析の第二の主要な分野は、異なる文やテキスト要素がどのようにして組み合わされているかを理解することである。この分野のタスクには、意味的役割のラベリング、意味的関係分析、および共参照解決が含まれている。この分野の他のタスクは、時間情報処理、換喩解決、意味分析など、意味分析のより専門的な問題を見る。この分野のタスクには、情報抽出、質問回答、文書要約、機械翻訳、語彙・意味ネットワークの構築、言語モデリング、言い換え、テキストの含意の認識など多くの潜在的な応用分野があり、それぞれの分野で意味解析の類いでの貢献は、最も優れた研究課題を構成している。
たとえば、単語の意味の誘導と明確化のタスクには、3つのフェーズがある。
WSIの教師なし評価では、Vメジャー(Rosenberg and Hirschberg, 2007)とペアFスコア(Artiles et al., 2009)の2種類の評価を考慮した。この評価は、SemEval-2007 WSIタスクの教師付き評価(Agirre and Soroa, 2007)を踏襲したものである。
以下の表は、SensevalからSemEvalへのワークショップの成長を反映しており、Senseval / SemEvalワークショップ全体で評価された計算意味論の領域の概要を示している。
ワークショップ | タスク数 | 研究分野 | 評価されたデータの言語 |
---|---|---|---|
Senseval-1 | 3 | 語義曖昧性解消(WSD)-語彙サンプルWSDタスク | 英語、フランス語、イタリア語 |
Senseval-2 | 12 | 語義曖昧性解消(WSD)-語彙サンプル、すべての単語、翻訳WSDタスク | チェコ語、オランダ語、英語、エストニア語、バスク語、中国語、デンマーク語、英語、イタリア語、日本語、韓国語、スペイン語、スウェーデン語 |
Senseval-3 | 16 (キャンセル2つを含む) |
論理形式変換、機械翻訳(MT)評価、意味役割ラベリング、WSD | バスク語、カタロニア語、中国語、英語、イタリア語、ルーマニア語、スペイン語 |
SemEval2007 | 19 (キャンセル1つを含む) |
言語間、フレーム抽出、情報抽出、語彙置換、語彙サンプル、換喩、意味注釈、意味関係、意味役割ラベリング、感情分析、時間表現、WSD | アラビア語、カタロニア語、中国語、英語、スペイン語、トルコ語 |
SemEval2010 | 18 (キャンセル1つを含む) |
共参照、言語間、省略記号、情報抽出、語彙置換、換喩、名詞複合語、構文解析、意味関係、意味役割ラベル付け、感情分析、テキスト含意、時間表現、WSD | カタロニア語、中国語、オランダ語、英語、フランス語、ドイツ語、イタリア語、日本語、スペイン語 |
SemEval2012 | 8 | 常識推論、語彙の単純化、関係の類似性、空間的役割のラベル付け、意味依存性の解析、意味論的およびテキストの類似性 | 中国語、英語 |
SemEval2013 | 14 | 時間的注釈、感情分析、空間的役割ラベリング、名詞複合語、句動詞意味論、テキスト類似性、応答分析、言語間テキスト含意、生物医学テキスト、言語間および複数言語WSD、単語感覚誘導、および語彙サンプル | カタロニア語、フランス語、ドイツ語、英語、イタリア語、スペイン語 |
SemEval2014 | 10 | 構成分布意味、音声対話システムの文法誘導、クロスレベル意味類似性、感情分析、L2ライティングアシスタント、監視付き意味解析、臨床テキスト分析、意味依存性解析、Twitterでの感情分析、複数言語意味テキスト類似性 | 英語、スペイン語、フランス語、ドイツ語、オランダ語、 |
SemEval2015 | 18 (キャンセル1つを含む) |
テキストの類似性と質問応答、時間と空間、感情、語義の曖昧性解消と帰納、意味関係の学習 | 英語、スペイン語、アラビア語、イタリア語 |
SemEval2016 | 14 | テキストの類似性と質問応答、感情分析、意味解析、意味分析、意味分類 | |
SemEval2017 | 12 [14] | 単語とテキストの意味比較、感情、ユーモア、真実の検出、意味構造の解析 | |
SemEval2018 | 12 [15] | ツイート、共参照、情報抽出、語彙意味論、読解と推論における感情と創造的な言語 |
複数言語WSDタスクは、SemEval-2013ワークショップで導入された。 [16]このタスクは、BabelNetをセンスインベントリ(sense inventory)として用いて、複数言語シナリオにおける単語の意味不明瞭化システムを評価することを目的としている。言語間WSDや複数言語語彙置換タスクのように、固定のセンスインベントリが指定されていない類似タスクとは異なり、複数言語WSDはBabelNetをセンスインベントリとして使用する。BabelNetの開発に先立ち、SemEval-2007では中英ビットテキストを用いた対訳語彙サンプルWSD評価タスクが実施された。 [17]
言語間WSDタスクは、SemEval-2007評価ワークショップで導入され、SemEval-2013ワークショップで再提案された。 [18] WSDシステムを機械翻訳や複数言語情報検索などの他の自然言語処理(NLP)アプリケーションに簡単に統合できるようにするために、言語に依存しない知識の少ないWSDアプローチが言語間WSD評価タスクに導入された。このタスクは、並列コーパスによる英語名詞の教師なし単語センス曖昧性解消タスクであるが、古典的なWSDタスクの語彙サンプルバリアントに従い、20個の多義名詞のみに制限されている。
SemEval-2014には、言語間(cross-lingual)/複数言語(multi-lingual)のタスクが2つしかない。それぞれ(i)英語、スペイン語、ドイツ語、フランス語、オランダ語を含む言語間WSDタスクであるL2ライティングアシスタントタスクと(ii)英語とスペイン語のテキストのシステムを評価する複数言語意味テキスト類似性タスクである。
意味評価の主なタスクには、自然言語処理の以下の表にある領域が含まれる。この表は、学問領域の発展が進むにつれて増えると予想される。 [19]
次の表は、Senseval-1からSemEval-2014までに関与した研究分野を示している(S=Senseval、SE=SemEval、S1=Senseval-1、SE07=SemEval-2007):
学問領域 | S1 | S2 | S3 | SE07 | SE10 | SE12 | SE13 | SE14 | SE15 | SE16 | SE17 |
---|---|---|---|---|---|---|---|---|---|---|---|
バイオインフォマティクス / クリニカルテキスト解析 | |||||||||||
常識的推論 (COPA) | |||||||||||
同一指示の解決 | |||||||||||
名詞複合語 (情報抽出) | |||||||||||
省略記号 | |||||||||||
文法誘導 | |||||||||||
キーフレーズ抽出 (情報抽出) | |||||||||||
語彙単純化 | |||||||||||
語彙置換 (複数言語または言語間) | |||||||||||
語彙複雑性 | |||||||||||
換喩 (情報抽出) | |||||||||||
パラフレーズ | |||||||||||
質問回答 | |||||||||||
質問回答 | |||||||||||
噂と信憑性 | |||||||||||
意味解析 | |||||||||||
意味的関係の識別 | |||||||||||
意味的役割のラベリング | |||||||||||
意味的類似性 | |||||||||||
意味的類似性 (言語間) | |||||||||||
意味的類似性 (複数言語) | |||||||||||
感情分析 | |||||||||||
空間的役割のラベリング | |||||||||||
分類体系(Taxonomy)の誘導/濃縮 | |||||||||||
テキスト間含意推論 (TE, Text entailment) | |||||||||||
テキスト間含意推論 (言語間) | |||||||||||
時間的アノテーション | |||||||||||
ツイッター分析 | |||||||||||
語義の曖昧性解消(語彙サンプル) | |||||||||||
語義の曖昧さの解消 (全文) | |||||||||||
語義の曖昧性解消 (複数言語) | |||||||||||
語義の曖昧性解消 (言語間) | |||||||||||
語義誘導 |
SemEvalのタスクは、多くの種類の意味注釈(Semantic Annotation)を設けており、それぞれ様々なスキーマを持っている。SemEval-2015では、主催者はタスクを達成したい意味注釈の種別に分類した。 [20] SemEvalワークショップに含まれる意味注釈の種類を次に示す。
タスクとそのトラックの割り当ては柔軟で、タスクは独自のトラックに発展する可能性がある。
例えば、SemEval-2015でのタクソノミ評価タスクはLearning Semantic Relationsトラックに割り当てられていたが、SemEval-2016では新たにSemantic Taxonomy EnrichmentタスクとSemantic Taxonomy専用トラックが充てられた。 [21] [22]