URL | http://www.nlm.nih.gov/research/umls/ |
---|---|
Tipus | ontologia i compendi |
El Sistema de Llenguatge Mèdic Unificat (en anglès, Unified Medical Language System, UMLS) és un compendi de molts vocabularis controlats de les ciències biomèdiques, creat el 1986.[1]
L'UMLS consisteix en fonts de coneixement (bases de dades) i un conjunt d'eines de programari; el sistema està destinat a ser utilitzat principalment per desenvolupadors de sistemes d'informàtica biomèdica. També proporciona la base per al processament del llenguatge natural; proporciona una estructura de mapatge entre aquests vocabularis i, per tant, permet traduir paraules entre els diferents sistemes de terminologia. També es pot considerar un tesaurus i un diccionari d'ontologia integral de conceptes biomèdics.
L'UMLS va ser dissenyat i és mantingut per la Biblioteca Nacional de Medicina dels Estats Units (US National Library of Medicine), que l'actualitza trimestralment i es pot utilitzar de forma gratuïta. El projecte va ser iniciat el 1986 per Donald A.B. Lindberg, Doctor en Medicina, quan era Director de la Biblioteca de Medicina.
El nombre de recursos biomèdics disponibles per als investigadors és enorme. Sovint, això és un problema quan es busca informació entre la literatura mèdica causa del gran volum de documents existent. L'objectiu de l'UMLS és millorar l'accés a aquesta literatura, facilitant el desenvolupament de sistemes informàtics que entenguin el llenguatge biomèdic. Això s'aconsegueix superant dues barreres importants:
Els usuaris del sistema han de signar un «UMLS agreement» (d'acord amb l'UMLS) i presentar informes breus d'ús anual.
Els usuaris acadèmics poden utilitzar gratuïtament l'UMLS amb finalitats de recerca i investigació.
L'ús comercial o de producció requereix llicències de drets d'autor per a algunes de les fonts dels vocabularis incorporats.
El Metathesaurus forma la base de l'UMLS i comprèn més d'1 milió de conceptes biomèdics i 5 milions de noms conceptuals, tots ells derivats dels més de 100 vocabularis i sistemes de classificació controlats incorporats. Alguns exemples dels vocabularis controlats incorporats són ICD-10, MeSH, SNOMED CT, DSM-IV, LOINC, WHO Adverse Drug Reaction Terminology, UK Clinical Terms, RxNorm, Gene Ontology i OMIM.
El Metathesaurus s'organitza per concepte, i cada concepte té atributs específics que defineixen el seu significat i estan vinculats als noms de conceptes corresponents en els diferents vocabularis de la font. Es representen nombroses relacions entre els conceptes, per exemple, jeràrquics com «is-a» per a les subclasses i «són part de» per a les subunitats, i els associatius com «són causats per» o «en la literatura es produeix gairebé sovint» (aquesta última es deriva de MEDLINE).
L'abast del Metathesaurus està determinat per l'abast dels vocabularis d'origen. Si diferents vocabularis utilitzen noms diferents per al mateix concepte, o si utilitzen el mateix nom per a diferents conceptes, aquest serà representat fidelment en el Metathesaurus. Tota la informació jeràrquica dels vocabularis d'origen es conserva al Metathesaurus. Els conceptes del Metathesaurus també es poden enllaçar a recursos fora de la base de dades, per exemple, a la bases de dades de seqüència de gens.
A cada concepte en el Metathesaurus s'assigna a un o més tipus semàntics (categories), que estan vinculats entre ells a través de relacions semàntiques.[2] El Semantic Network (xarxa semàntica) és un catàleg d'aquests tipus i relacions semàntiques. Aquesta és una classificació bastant àmplia; en total hi ha 127 tipus semàntics i 54 relacions.
Els principals tipus semàntics són «organismes», «estructures anatòmiques», «funció biològica», «productes químics», «esdeveniments», «objectes físics» i «conceptes o idees». Els vincles entre els tipus semàntics defineixen l'estructura de la xarxa i mostren relacions importants entre les agrupacions i els conceptes. El vincle principal entre els tipus semàntics és l'enllaç «is-a», que estableix una jerarquia de tipus. La xarxa també té cinc categories principals de relacions no jeràrquiques (o associatives), que constitueixen els restants 53 tipus de relació. Aquests són «relacionats físicament», «relacionats en l'espai», «relacionat temporalment amb», «relacionat funcionalment amb» i «relacionat conceptualment amb».[2]
La informació sobre un tipus semàntic inclou un identificador, una definició, exemples, informació jeràrquica sobre el(s) tipus semàntic(s) que abasta i les relacions associatives. Les relacions associatives dins del Semantic Network són molt febles. Capten com a màxim les relacions «alguns-alguns»; per exemple, capta el fet que algunes de les instàncies del primer tipus poden estar connectades per la relació més destacada a alguna instància del segon tipus. De manera diferent, capten el fet que una afirmació relacional corresponent és significativa (tot i que no cal ser veritat en tots els casos). Un exemple de relació associativa és «pot causar», aplicat als termes (fumar, càncer de pulmó): fumar «pot causar» càncer de pulmó.
L'SPECIALIST Lexicon conté informació sobre vocabulari en anglès bàsic de termes biomèdics, termes trobats en MEDLINE i termes trobats en l'UMLS Metathesaurus. Cada entrada conté sintaxi (com es combinen les paraules per crear significats), morfologia (forma i estructura) i ortografia (escriptura correcta).
Un conjunt de programes Java utilitza el lèxic per a treballar a través de les variacions en els textos biomèdics relacionant paraules entre les seves parts del llenguatge, que poden ser útils en cerques web o en cerques a través d'una història clínica informatitzada.
Les entrades poden ser termes d'una paraula o de moltes paraules. Els registres contenen quatre parts:
Per exemple, una consulta per a «anestèsia» retornaria el següent:[3]
{ base=anestèsia spelling_variant=anestèsia entry=E0008769 cat=noun variants=reg } { base=anestèsia spelling_variant=anestèsia entry=E0008770 cat=adj variants=inv position=attrib(3) }
El SPECIALIST Lexicon està disponible en dos formats:
Donada la mida i la complexitat de l'UMLS i la seva política permissiva sobre la integració de termes, els errors són inevitables.[4] Els errors inclouen l'ambigüitat i la redundància, els cicles de relació jeràrquica (un concepte és alhora un avantpassat i un descendent), mancança d'avantpassats (els tipus semàntics de conceptes de pare/fill no estan relacionats) i la inversió semàntica (la relació de pare/fill amb els tipus semàntics és no coherent amb els conceptes).[5]
Aquests errors es detecten i es resolen mitjançant l'auditoria de l'UMLS. Les auditories manuals poden ser molt lentes i costoses. Els investigadors han intentat abordar el tema a través de diverses maneres. Les eines automatitzades es poden utilitzar per buscar aquests errors.
Per a les inconsistències estructurals (com ara bucles), funcionaria una solució trivial basada en l'ordre. Tanmateix, aquesta solució on es pot aplicar quan la inconsistència es troba en el terme o al nivell de concepte (un significat específic d'un terme en un terme).[6] Això requereix una estratègia de recerca informada (representació del coneixement).
A més de les fonts de coneixement, la Biblioteca Nacional de Medicina també proporciona eines de suport: