제라드 솔튼

제라드 솔튼(Gerard Salton, 1927년 3월 8일~1995년 8월 28일)은 코넬 대학교컴퓨터 과학과 교수였다. 그는 그가 활동했던 시기에 정보 검색 학계에서 가장 앞서나가는 연구자였던 것으로 여겨진다. 그가 하버드 대학교에서 개발을 시작하고, 이후 코넬 대학교 연구진과 함께 개발을 마무리한 SMART 정보 검색 시스템은 오늘날 정보 검색 분야에서 보편적으로 활용되는 벡터 공간 모델이 최초로 적용된 시스템이었다.

솔튼은 1927년 3월 8일 독일 뉘른베르크에서 출생했다. 브루클린 칼리지에서 수학과 학사(1950) 및 석사(1952) 학위를 받았으며, 1958년 하버드 대학교에서 응용 수학과 박사 학위를 받았다. 그는 하버드 대학교에서 컴퓨팅 연구의 선구자인 하워드 에이컨 밑에서 수학한 마지막 박사생이었다. 1965년까지 하버드 대학교에서 강의를 했고, 이후 코넬 대학교로 자리를 옮겨 이 대학 컴퓨터 과학과의 공동 설립자가 되었다.

솔튼은 오늘날 정보 검색 분야에서 널리 사용되는 벡터 공간 모델의 창시자로 가장 잘 알려져 있다.[1] 이 모델에서는 문서가 단어 빈도의 벡터로 표현되며, 서로 다른 두 문서 벡터의 코사인 유사도를 이용해 유사한 정도를 판단할 수 있다. 벡터 공간 모델과 관련하여 널리 사용되는 TF-IDF(단어 빈도-역 문서 빈도)의 개념 또한 같은 논문에서 솔튼이 제안한 것으로, 특정 단어의 한 문서 안에서의 가중치를 단어의 단일 문서내 빈도 및 전체 문서중 빈도의 비율로 산출하였다.(여기서 사용된 역 문서 빈도의 개념은 1972년 Karen Spärck Jones에 의해 제안되었다.[2]) 그는 이 연구 이후에 자동 텍스트 요약 및 분석[3] 및 자동 하이퍼 텍스트 생성에 관심을 가졌다.[4] 그는 전생애에 걸쳐 150편의 연구논문과 5권의 저서를 남겼다.

솔튼은 학술지인 Communications of the ACMJournal of the ACM의 편집장을 지냈으며, Special Interest Group on Information Retrieval(SIGIR)의 회장직을 역임하였다. 또한 ACM Transactions on Information Systems의 부편집장도 맡았다. 그는 1995년 ACM 펠로우로 선출되었으며, 1989년 미국 정보 과학 협회(American Society for Information Science)로부터 Award of Merit상을 수여 받았다. 또한 1983년에는 정보 검색 분야 연구에 뛰어난 공헌을 한 공로로 최초의 SIGIR상 수상자가 되었으며, 이 상은 오늘날 Gerard Salton Award로 불린다.

각주

[편집]
  1. (영어) Salton, G.; Wong, A.; Yang, C. S. (1975). “A vector space model for automatic indexing”. 《Communications of the ACM》 18 (11): 613. doi:10.1145/361219.361220. 
  2. (영어) Spärck Jones, K. (1972). “A Statistical Interpretation of Term Specificity and Its Application in Retrieval” (PDF). 《Journal of Documentation》 28: 11–21. doi:10.1108/eb026526. 
  3. Salton, G.; Allan, J.; Buckley, C.; Singhal, A. (1994). “Automatic Analysis, Theme Generation, and Summarization of Machine-Readable Texts”. 《Science》 264 (5164): 1421–1426. doi:10.1126/science.264.5164.1421. PMID 17838425. 
  4. (영어) “Gerard Salton”. Cs.cornell.edu. 2013년 9월 14일에 확인함. 

외부 링크

[편집]
  • (영어) In Memoriam
  • (영어) Fractals of Change: Search Down Memory Lane
  • (영어) The Most Influential Paper Gerard Salton Never Wrote[깨진 링크(과거 내용 찾기)] - 데이비드 더빈(David Dubin)의 이 2004년 학술 경향 논문은 단어 식별값 모델(term discrimination value model, TDV)이 정보 검색 모델로서의 벡터 공간 모델로 변화해가는 과정을 추적한 중요한 리뷰이다. 이 논문은 솔튼의 벡터 공간 모델이 원래 의도된 모델이었다는 정보 검색 학계의 통념에 대해 의문을 제기한다. 오랜 시간이 흘러 보편적인 정보 검색 모델로 자리잡게 된 이 모델은 원래는 설명을 뒷받침하기 위한 데이터 중심(data-centric)의 수학계산적 모델(mathematical–computational model)이었다. 아울러 이 논문은 자주 인용되는 1975년 솔튼의 논문은 실제로 존재하지 않으며, 이는 아마도 벡터 공간 모델이나 정보 검색 모델에 대해서는 다루지 않고 있는 다른 두 논문의 결합일 것이라고 추정하고 있다.