연구자들이 사용할 수 있는 많은 생의학 자원들은 엄청나다. 종종 자원들이 엄청나다는 것은 의학 문헌들을 검색할 때 검색된 문서의 많은 양 때문에 문제가 된다. UMLS의 목적은 생의학언어를 이해하는 컴퓨터 시스템들의 개발을 촉진함으로써 이러한 문헌에 대한 접근을 향상시키는 것이다. 이것은 두 가지 중요한 장벽들을 극복해야 달성가능하다: "같은 개념들이 상이한 사람들에 의해 그리고 서로다른 기계가 읽을 수 있는 소스로 표현되는 방식의 다양함"과 "많은 이종 데이터베이스들과 시스템들 간의 유용한 정보의 분산".
이 시스템의 사용자들은 "UMLS 계약"에 서명하고 간략한 연간 사용리포트를 제출해야한다. 학술적 사용자들은 연구목적에 대해서 UMLS를 무료로 사용할 수 있다. 상용적 또는 제품에서의 사용은 통합된 몇몇 소스 어휘집들에 대해서 라이센스가 필요하다.
메타시소러스는 UMLS의 기본 형태를 구성하고 백만개 이상의 생의학 개념들과 5백만개의 명칭으로 구성되는데, 이것은 100개 이상의 통합된 통제어휘집들과 분류체계 시스템에서 유래한다. 통합된 통제어휘집들의 몇가지 예는 SNOMED CT와 ICD-10, MeSH, CPT, DSM-IV, LOINC, WHO Adverse Drug Reaction Terminology, UK Clinical Terms, RxNorm, Gene Ontology, OMIM 이다 (see full list).
메타시소러스는 개념으로 조직화되어 있고, 각 개념은 그 의미를 정의하는 특별한 속성들을 가지고 있고, 다양한 소스 어휘집들에 있는 해당 개념 이름과 연결된다. 많은 개념들간의 관계로 표현되는데, 예를 들어 하위클래스를 위한 "isa"와 하위유니트를 위한 "is part of" 같은 계층적인 것들 그리고 "is cause by" 또는 (Medline에서 유도된) "in the literature often occurs close to"과 같은 연관관계적인(associative) 것들이다.
메타시소러스의 범위는 소스 어휘집들의 범위에 의해 결정된다. 같은 개념에 대해 서로 다른 어휘집들이 서로 다른 이름을 사용한거나, 서로 다른 개념들에 대해서 같은 이름을 사용한다면 메터시소러스 내에서 믿을 수 있게 표현되어야 할 것이다. 모든 소스 어휘집들의 계층적 정보는 메터시소러스 내에서 유지된다. 또한메 타시소러스 개념들은 유전자 시퀀스 데이터베이스와 같이 데이터베이스의 밖에 있는 자원들과 연결될 수 있다.
메타시소러스의 각 개념은 하나 또는 하나 이상의 시맨틱 타입(semantic types)(범주(categories))이 할당되는데, 이것은 시맨틱 관계(semantic relationships)[1]를 통해 서로 연결된다. 시맨틱 네트워크는 이러한 시맨틱 타입들과 관계들의 목록이다. 이것은 좀 더 넓은 분류체계이다; 전체 127개 시맨틱 타입과 54개의 관계.
중요한 시맨틱 타입들은 organisms(유기체)와 anatomical structures(해부학적 구조), biologic function(생물학적 기능), chemicals(화학물), events(이벤트), physical objects(물체), concepts or ideas(개념 또는 아이디어)이다. 시맨틱 타입들 간의 연결은 네트워크 구조를 정의하고 그룹핑과 개념들 간의 중요한 관계를 보여준다. 중요한 시맨틱 타입들 간의 연결은 "isa"이고, 타입들의 "계층"을 만든다. 네트워크는 또한 5개의 중요한 비계층 (또는 연관관계적) 관계를 가지고 있는데, 이것은 남은 53개 관계 타입으로 구성된다. 이것들은 "physically related to"와 "spatially related to", "temporally related to", "functionally related to", "conceptually related to"이다.[1]
시맨틱 타임에 대한 정보는 식별자(identifier)와 정의(definition), 예시(examples), 포함된 시맨틱 타입(들)에 대한 계층정보, 연관관계를 포함한다. 시맨틱 네트워크 내의 연관관계(Associative relationships)는 매우 약하다. 이것들은 대부분 some-some 관계를 표현하는데, 즉, 첫번째 타입의 몇몇 인스턴스는 두번째 타입의 몇몇 인스턴스에 대한 두드러진 관계에 의해 연결될 수 있다는 사실을 표현한다. 구문을 다르게 표현한다면, (비록 모든 경우에 참이 될 필요는 없지만) 대응하는 관계적인 단언문(relational assertion)은 의미가 있다는 사실을 표현한다.
연관관계의 예는 (흡연, 폐암)이라는 용어들에 적용될 수 있는데, 이 용어들은 흡연이 폐암의 원인일 수 있다는 결과를 산출할 수 있다는 것이다: 흡연은 "may-cause" 폐암
스페셜리스트 렉시콘은 공통 영어 어휘집과 생의학 용어들, MEDLINE에서 발견되는 용어들, UMLS 메터시소러스에서 발견된 용어들에 대한 정보를 포함한다. 각 입력된 정보(entry)는 문법(syntatic, 의미를 생성하기 위해 단어들이 어떻게 모여서 연결되는지), 형태(morphology, 형태와 구조), 철자(orthography) 정보를 포함한다. 자바 프로그래밍 언어로 개발된 프로그램들은 lexicon을 사용하여 생의학 문자열에 있는 다양한 변이들(variations)을 각각의 품사로 단어들을 연결해서 처리하는데, 이는 전자의무기록을 웹검색하는데 도움이 될 수 있다.
입력된 정보들(Entries)은 한 단어 또는 여러 단어로 된 용어일 수 있다. 레코드들은 4개 부분을 포함한다: 기본형(base form, 즉, "running"의 경우에는 "run"); 품사(parts of speech, 스페셜리스트 렉시콘은 품사 중에 11개를 인식); 하나의 유일한 식별자(a unique identifier); 그리고 모든 가능한 철차 변이들(spelling variants).
예를 들어, "anesthetic"(마취의)을 검색하면 다음과 같이 결과값을 돌려줄 것임: [2]
{ base=anaesthetic spelling_variant=anesthetic entry=E0008769 cat=noun variants=reg } { base=anaesthetic spelling_variant=anesthetic entry=E0008770 cat=adj variants=inv position=attrib(3) }
스페셜리스트 렉시콘은 두 가지 포맷으로 이용가능하다. "unit record" 포맷은 위에서 볼 수 있고, slots와 fillers으로 구성된다. slot은 엘레먼트(element, 즉, "base=" 또는 "spelling variant=")이고 fillers는 해당 입력정보(entry)을 위한 slot에 속성이 될 수 있는 값이다. 관계형 데이터베이스 포맷은 아직 정규화(normalization)되지 않았고 파일들 안에 굉장히 많은 중복 데이터가 포함되어있다.
UMLS의 크기와 복잡도와 용어들을 통합하는 관대한 정책을 보면, 오류들은 피할 수 없다.[3] 오류에는 모호성과 중복, 계층적 구조 순환(하나의 개념이 서로에 대해 선조(ancestor)와 자손(descendant)이 됨)와 선조 누락(부모와 자식 개념의 시맨틱 타입이 관계없음), 시맨틱 역전(semantic inversion, 시맨틱 타입을 가진 자손/부모 관계가 그 개념들과 일치하지 않음)이 포함된다.[4]
이러한 오류들은 UMLS 검사를 통해 발견되고 해소된다. 수기 검사는 시간소비가 심하고 비용이 많이 든다. 연구자들은 이러한 문제들을 다양한 방식으로 해결하기 시도해왔다. 자동화된 도구들이 이러한 오류들을 찾기위해 사용될 수 있다. (순환과 같은) 구조적 불일치에 대해서, 순서에 기반을 둔 간단한 해결책이 문제를 해결할 수도 있지만, 불일치가 용어 또는 개념 수준(용어가 문맥에서 특별한 의미를 가짐)에 있으면 같은 방법이 적용될 수 없을 것이다.[5] 이것은 informed search strategy가 사용될 필요가 있다(지식표현, Knowledge represenation).
지식 소스들에 더해서, 미국립의학도서관 또한 지원 도구들을 제공한다.