![]() |
KS X 1001は、韓国でハングルや漢字をあらわすのに用いられている文字コード(符号化文字集合)の規格(韓国産業標準、KS)。以前はKS C 5601の規格名だった。単にKSコードとも呼ばれる。
現代韓国でUnicodeと並んで用いられるほぼ唯一の文字コードである。
JIS X 0208に似た94×94文字集合で、ハングル2350字、漢字4888字、他英数字や日本語の仮名文字など989字、合計8227字を含んでいる。ハングルについては、字母を組み合わせて構成した1音節を1文字とみなしてコードを振る「完成型コード」であり、すべての可能な組み合わせを符号化しているわけではないので、外来語に使われる音など、表現できない音節が存在した。たとえば、ペプシコーラの韓国法人は「ペプ」(펲)の字がKS X 1001に含まれなかったため、1992年にハングル表記をKS X 1001に存在する別の「ペプ」(펩)の字に変更した。[1]この問題は、1996年策定のUnicode 2.0.0にて11172文字すべての現代ハングル文字が含まれることで決着を見た。
漢字は読みの順に配列されている。朝鮮語では原則として漢字は一字一音であるが、複数の読みを持つ漢字がわずかながらあり、この規格ではそのような漢字をそれぞれの読みの位置に重複して符号化していることが大きな特徴である。頭音法則により、先頭に来るかそうでないかで読みが異なるものもあるが、「盧」や「李」などのよく使われるものはそれも別の読みとみなして重複符号化している。もっとも多いのは「樂」で、4個所に重複符号化されている。この方式は、コードから文字の読みを機械的に判定できるという利点がある一方で、字形からコードを唯一に定めることができないという問題もある。UnicodeおよびISO/IEC 10646においては、CJK統合漢字には1文字のみを収録し、ラウンドトリップ変換のためにそれ以外の文字はCJK互換漢字に重複符号化している。
KS X 1001をEUCで符号化したものを韓国語EUC (EUC-KR) というが、実際にはKS X 1001が他の符号化方式で用いられることはほとんどないため(ISO-2022-KRというものもあるがほとんど使われていない)、単にKS C 5601といっただけでEUC-KRを意味している場合が多い。
なお朝鮮民主主義人民共和国にはKPS 9566という別の規格が存在する。