La disambiguazione (in inglese Word Sense Disambiguation o, abbreviato, WSD) è il processo con il quale si precisa il significato di una parola o di un insieme di parole (frase), che denota significati diversi a seconda dei contesti, per evitare che sia ambigua.
La disambiguazione, mediante appositi algoritmi, riveste particolare importanza nelle ricerche sull'intelligenza artificiale e, in particolare, sull'elaborazione del linguaggio naturale. Specificamente, si prevedono benefici della disambiguazione in programmi di traduzione automatica, recupero dell'informazione, estrazione automatica di informazioni, ecc., che però non danno informazioni esatte riguardo al contesto ambientale in cui ci si trova in quell’istante.
I due esempi seguenti riguardano significati distinti della parola rombo:
Sebbene per un essere umano sia ovvio che la prima frase si riferisce al significato di pesce e la seconda a quello di figura geometrica, sviluppare algoritmi per replicare questa capacità umana è tipicamente difficile.
Un problema fondamentale della disambiguazione riguarda l'identificazione dei significati delle parole (inventari di senso). Quando una parola assume più significati, essa è detta polisemica. In casi quali la parola rombo, alcuni dei significati appaiono chiaramente distinti. Tali significati sono detti omonimi. Tuttavia, esistono altri casi di significati differenti strettamente correlati. Un esempio è quello di un significato correlato a un altro significato mediante metafora (ad esempio, divorare un patrimonio) o metonimia (bere un bicchiere). In tali casi, la suddivisione dei significati è molto più difficile: diversi dizionari forniscono suddivisioni differenti di significati per le parole. Una soluzione adottata dai ricercatori è stata quella di scegliere un particolare dizionario della lingua inglese, WordNet, e utilizzare il suo insieme di significati. Ricerche sono state effettuate anche utilizzando gli equivalenti di WordNet in altre lingue (per l'italiano, esistono BabelNet,[1] ItalWordNet[2] e MultiWordNet[3]). Sfortunatamente, WordNet codifica distinzioni di significato troppo raffinate, portando a prestazioni di disambiguazione deludenti. Ultimamente, sono state create distinzioni di significato meno raffinate che hanno portato a prestazioni di disambiguazione per la lingua inglese tra l'80% e il 90%.[4]
Controllo di autorità | LCCN (EN) sh85119869 · GND (DE) 4233548-6 · J9U (EN, HE) 987007531766805171 |
---|