언어학에서 공통참조는 두 개 이상의 표현이 같은 사람이나 사물을 가리킬 때 발생한다. 그들은 동일한 지시 대상을 가지고 있다. 예를 들어 'Bill said Alice would arrive soon, and she did.'라는 문장에서 Alice와 she 는 같은 사람을 가리킨다.[1]
공통참조는 종종 결정하기 쉽지 않다. 예를 들어, 'Bill said he would come.'이라는 문장에서 he 라는 단어는 Bill을 의미할 수도 있고 아닐 수도 있다. 어떤 표현이 공통참조인지 결정하는 것은 의미를 분석하거나 이해하는 데 중요한 부분이며, 종종 문맥으로부터 알 수 있는 정보나 실제 세계에서의 지식이 필요하다. 이런 정보나 지식에는 특정 이름이 특정 종(예를 들어 'Rover')과 연관되는 경향, 'Titanic'과 같은 인공물, (한국어에는 존재하지 않지만) 문법상의 성별 등이 포함된다.
언어학자들은 일반적으로 색인을 사용하여 공통참조를 표현한다. 예를 들어 'Billi said hei would come'에서 색인 i는 'Bill'과 'he'가 같은 대상임을 의미한다. 이러한 표현법을 coindex라고 부르며, 이를 공통참조로 해석해야 함을 뜻한다.
특정한 둘 이상의 표현이 공통참조적일 때는 완전한 혹은 설명적인 형태(개인의 성과 이름을 포함한 전체 이름, 때때로 직위나 직함을 포함)가 먼저 나타난다. 그리고 이후에는 축약된 형태(예를 들어 성만, 혹은 성을 제외한 이름만, 혹은 대명사)로 나타난다. 먼저 나타나는 것을 antecedent라 하고, 뒤에 나타나는 것을 proform, anaphor, reference라고 부른다. 하지만 "When she arrived home, Alice went to sleep."과 같은 문장에서처럼 대명사가 지시하는 대상보다 먼저 나타날 수 있다. 이러한 경우, 이 공통참조는 anaphora가 아닌 cataphora라고 부른다.
공통참조는 syntax 분야에서 binding phenomena에 중요하다. 바인딩 이론은 텍스트 내의 공통참조 표현 사이에 존재하는 문법적 관계를 탐구한다.
공통참조를 탐색할 때, 예를 들어 anaphora, cataphora, 분할 선행사, 공통참조 명사구 등과 같은 수많은 구별이 이루어질 수 있다.[2] 이러한 보다 구체적인 현상 중 몇 가지가 여기에 설명되어 있다.
명사구에 대한 공통참조. 두번째 명사구가 첫번째 명사구에 대한 서술어(predication)이다.
의미론자들과 논리학자들은 종종 공통참조와 결속 변항(bound variable)을 구분한다.[3] 결속 변항은 대용형(代用形, proform)에 대한 선행사가 정해지지 않은 수량화된 표현일 때 발생한다.[4] 틀:Clarification needed
every student나 no student 같은 수량화된 표현은 문법적으로 단수이지만 담론이나 현실 세계에서 특정 대상을 지칭하지 않는다. 따라서 이 두 예시에서 선행사 his는 참조적이지 않다. 그 대신 선행사에 의해 결속된 변항으로 간주한다. 이 참조는 담론 세계에서 어느 학생을 생각하는지에 따라 달라진다. 아래 예시에서는 결속 변항의 존재가 더욱 명백하다.
이 문장은 다음의 두 가지 해석이 가능하다.
첫번째 의미에서 his는 공통참조이다. 즉 his와 Jack이 같은 대상을 가리킨다. 두번째 의미에서는 참조 대상이 모든 학생 집합에 대해 다르기 때문에 결속 변항이다. Coindex 표기법은 두 경우 모두에 흔히 사용된다. 즉, 두 개 이상의 표현이 coindex 되어있을 때, 이것이 공통참조인지 결속 변항인지(또는 마지막 예에서와 같이 해석에 따라 달라지는지 여부)를 나타내지 않는다.
계산언어학과 자연어 처리에서 공통참조해결(coreference resolution)은 담론에서 잘 연구된 문제이다. 텍스트를 정확하게 해석하거나 언급된 다양한 주제의 상대적 중요성을 추정하려면, 대명사와 기타 참조표현이 올바른 대상과 연결되어야 한다. 공통참조를 해결하기 위한 알고리즘은 일반적으로 참조표현과 호환되는 가장 가까운 선행 대상을 먼저 찾는다. 예를 들어, she는 woman 또는 Anne과 같은 선행 표현과 연결할 수 있지만 Bill은 아닐 가능성이 크다. himself 같은 대명사는 제약이 더 엄격하다. 많은 언어 작업과 마찬가지로 정밀도와 재현율 사이에는 trade-off가 있다. 공통참조해결 알고리즘을 평가하는 데 일반적으로 사용되는 클러스터 품질 메트릭에는 Rand 인덱스, 조정된 Rand 인덱스 및 다양한 상호 정보 기반 방법이 포함된다.
영어에서 공통참조해결에 대한 특별한 문제는 많은 용도를 가진 대명사 it이다. It은 일반적으로 무생물을 지칭한다는 점을 제외하면 he나 she와 유사한 방식으로 다른 대상을 지칭할 수 있다 (규칙은 실제로 더 복잡하다: 동물은 it, he, she 모두를 이용하여 지칭할 수 있다. 선박은 관습적으로 'she'로 지칭한다. 허리케인은 일반적으로 성별을 가진 이름을 가짐에도 불구하고 it으로 지칭한다. It은 추상적인 대상을 지칭할 수도 있다. 예를 들어, 'He was paid minimum wage, but didn't seem to mind it.' 같은 문장이 있다. 마지막으로, 특정 대상을 지칭하지 않는 pleonastic 용법도 있다.
Pleonastic 사용은 참조로 간주하지 않으므로 공통참조의 일부가 아니다.[5]
공통참조해결에 대한 접근 방식은 크게 멘션 쌍, 멘션 순위 또는 엔티티 기반 알고리즘으로 구분할 수 있다. 멘션 쌍 알고리즘은 두 개의 주어진 멘션 쌍이 동일 엔티티에 속하는 경우 이진 결정 방식을 이용한다. 성별 과 같은 엔티티 전체 제약 조건은 고려되지 않기 때문에 오류 전파 가 발생한다. 예를 들어, 대명사 he 또는 she는 모두 the teacher와 공통참조의 가능성이 높지만, 서로 공통참조가 될 수는 없다. 멘션 순위 알고리즘은 이 아이디어를 확장하지만, 대신 하나의 멘션이 하나의 (이전) 멘션과만 공통참조될 수 있다고 규정한다. 결과적으로 각각의 이전 멘션에 점수가 부여되며 가장 높은 점수를 받은 멘션이 연결거나, 어떠한 멘션도 연결되지 않는다. 마지막으로 엔티티 기반 방법에서는 개별 멘션이 아닌 전체 공통참조 체인의 정보를 기반으로 멘션이 연결된다. 가변 너비 체인의 표현은 멘션 기반 방법보다 복잡하고 계산 비용이 크기 때문에 이러한 알고리즘은 대부분 신경망 아키텍처를 기반으로 한다.