漢字コード

目次

文字コード関係図

ASA X3.4-196
US-ASCII / ANSI X3.4-1986
JIS X 0201-1976 ≒ 半角文字(ASCII+半角カナ)
JIS X 0202 ≒ ISO/IEC 2022
JIS X 0208-1978 - 漢字集合
JIS X 0208-1983 - 漢字集合
JIS X 0208-1990 - 漢字集合
JIS X 0212-1990 - 漢字集合
JIS X 0208-1997 - 漢字集合
JIS X 0211 - 制御文字
JIS X 0221 ≒ ISO/IEC 10646
ISO/IEC 646-1991 - 半角文字
ISO/IEC 646 IRV ≒ US-ASCII
ISO 8859
ISO/IEC 6429-1992
ISO/IEC 2022
RFC 1468 = ISO-2022-JP
ISO-2022-JP
ISO-2022-KR
ISO-2022-CN
EUC-JP
Shift_JIS

文字コードの例

「AB漢字」という漢字をそれぞれの文字コードで表した場合のコードを下記に示します。

文字コード BOM A B 漢字IN 漢字OUT
JIS(ASCII)
41421B 24 4234 413B 7A1B 28 4A
JIS(Roman)
41421B 24 4234 413B 7A1B 28 42
旧JIS
41421B 24 4034 413B 7A1B 28 42
EUC-JP
4142
B4 C1BB FA
Shift_JIS
4142
8A BF8E 9A
UTF-16LE
41 0042 00
22 6F57 5B
UTF-16BE
00 4100 42
6F 225B 57
UTF-16(LE) FF FE41 0042 00
22 6F57 5B
UTF-16(BE) FE FF00 4100 42
6F 225B 57
UTF-8N
4142
E6 BC A2E5 AD 97
UTF-8 EF BB BF4142
E6 BC A2E5 AD 97
UTF-7
41422B62 79 4A62 56 772D

半角文字

◆ 旧ASCII(ASA X3.4-1963 / ANSI INCITS 4-1963)

01234567
0NULDC0SP@P

1SOMDC1!1AQ

2EOADC2"2BR

3EOMDC3#3CS

4EOTDC4$4DT

5WRUERR%5EU

6RUSYN&6FV

7BELLEM'7GW

8FE0 S0(8HX

9HT S1 )9IY

ALF S2*:JZ

BVT S3+;K[

CFF S4 ,<L
ACK
DCR S5 -=M]

ESO S6 .>N
ESC
FSI S7 /?O
DEL
◆ ISO R 646:1967
【6bitコード】

0123
0SP0NULP
1HT1AQ
2LF2BR
3VT3CS
4FF4DT
5CR5EU
6SO6FV
7SI7GW
8(8HX
9)9IY
A*:JZ
B+;K[
C,> $L
D-= %M]
E.< &NESC
F/'ODEL
【7bitコード】

01234567
0NULDLESP( @ )P( ` )p
1SOHDC1!1AQaq
2STXDC2"2BRbr
3ETXDC3( # )3CScs
4EOTDC4( $ )4DTdt
5ENQNAK%5EUeu
6ACKSYN&6FVfv
7BELETB'7GWgw
8BS CAN(8HXhx
9HT EM )9IYiy
ALF SUB*:JZjz
BVT ESC+;K( [ )k( { )
CFF FS ,<L( \ )l( | )
DCR GS -=M( ] )m( } )
ESO RS .>N( ^ )n( ~ )
FSI US /?O_oDEL
◆ ISO/IEC 646(1973年, 1991年)
◆ US-ASCII(ANSI X3.4-1986 / ANSI INCITS 4-1986)
◆ JIS X 0201-1976(JIS C 6220-1969)

01234567
0NULDLESP@P`p
1SOHDC1!1AQaq
2STXDC2"2BRbr
3ETXDC3#3CScs
4EOTDC4$4DTdt
5ENQNAK%5EUeu
6ACKSYN&6FVfv
7BELETB'7GWgw
8BS CAN(8HXhx
9HT EM )9IYiy
ALF SUB*:JZjz
BVT ESC+;K[k{
CFF FS ,<L\l|
DCR GS -=M]m}
ESO RS .>N^n~
FSI US /?O_oDEL

89ABCDEF
0     
1    
2    
3    
4    
5    
6    
7    
8    
9    
A    
B    
C    
D    
E    
F    
◆ ISO 8859
規格説明
ISO-8859-1Latin-1 西欧諸語
ISO-8859-2Latin-2 東欧諸語
ISO-8859-3Latin-3 南欧諸語、エスペラント語など
ISO-8859-4Latin-4 北欧諸語
ISO-8859-5Cyrillic ロシア語(キリル文字)
ISO-8859-6Arabic アラビア語
ISO-8859-7Greek ギリシャ語
ISO-8859-8Hebrew ヘブライ語
ISO-8859-9Latin-5 トルコ語
ISO-8859-10Latin-6 北欧語
ISO-8859-11タイ
ISO-8859-12予約
ISO-8859-13Latin-7 Baltic Rim
ISO-8859-14Latin-8 Celtic
ISO-8859-15Latin-9 Latin-1の改定
ISO-8859-16Latin-10 Latin-2の改定

制御文字

◆ ISO/IEC 6429:1992

ISOが制御文字について定義した規格です。

◆ JIS X 0211-1994

ISO/IEC 6429:1992をベースに、制御文字集合 C0領域(#00~#1f)、C1領域(#80~#9f)など様々な制御コードの詳細が定義されています。

当用漢字・人名漢字・常用漢字

JISによる漢字コードとは別に、下記などの漢字表が定義されています。

制定年名称字数
1946年当用漢字1,850字
1948年当用漢字音訓表
1948年当用漢字別表881字
1949年当用漢字字体表
1951年人名用漢字別表92字(2004年には983字)
1981年常用漢字表1,945字

JISコード

規格 非漢字 第一
水準
第二
水準
第三
水準
第四
水準
補助
漢字
合計
JIS X 0208-1978 453 2,965 3,384


6,802
JIS X 0208-1983 524 2,965 3,388


6,877
JIS X 0208-1990 524 2,965 3,390


6,879
JIS X 0208-1997 524 2,965 3,390


6,879
JIS X 0212-1990




6,067 6,067
JIS X 0213-2000 1,183 2,965 3,390 1,249 2,436
11,223
JIS X 0213-2004 1,183 2,965 3,390 1,259 2,436
11,233
◆ JIS X 0208-1978(JIS C 6226-1978)

最初に制定されたJIS漢字コード表です。制定時は「JIS C 6226-1978」と呼ばれていましたが、1987年に「JIS X 0208-1978」に改名されました。「旧JIS」、「78JIS」などとも呼ばれます。文字を区(1~94)と点(1~94)で表します。たとえば「あ」は4区2点となります。下記の6,802字が定義されています。

説明文字数備考
1~2区記号108字後に39字追加
3区英数字62字
4区ひらがな83字
5区カタカナ86字
6区ギリシア文字48字
7区キリル文字66字
8区罫線記号
後に32字追加
16~47区第一水準2,965字
48~84区第二水準3,384字後に6字追加

合計6,802字現在は6,879字
◆ JIS X 0208-1983(JIS C 6226-1983)

当初は「JIS C 6226-1983」と呼ばれていましたが、1987年に「JIS X 0208-2983」と改名されました。「新JIS」、「83JIS」とも呼ばれています。他社が新JISに移行する中、NECのPC-9801のみが旧JISを使い続けたため、混乱の生じた時代がありました。JIS X 0208-1978 に対し、下記の変更が行われています。

「堯 槇 遙 瑤」の文字を簡易文字に字形変更し、元の4字を第二水準(84区)に移動しました。

第一水準:尭 槙 遥 瑶(字形変更)
第二水準:堯 槇 遙 瑤(移動)

1~2区記号39字、8区罫線32字を追加しました。

∈∋⊆⊇⊂⊃∪∩∧∨¬⇒⇔∀∃∠⊥⌒∂∇≡≒≪≫√∽∝∵∫∬ʼn
♯♭♪†‡¶◯
─│┌┐┘└├┬┤┴┼━┃┏┓┛┗┣┳┫┻╋┠┯┨┷┿┝┰┥┸╂

第一水準と第二水準の間で22組(44字)を入れ替えました。

鯵鰺・鴬鶯・蛎蠣・撹攪・竃竈・潅灌・諌諫・頚頸・砿礦・蕊蘂・靭靱
賎賤・壷壺・砺礪・梼檮・涛濤・迩邇・蝿蠅・桧檜・侭儘・薮藪・篭籠

「森鴎外」の「鴎」など、294字の字形を変更しました。

拐喝嫌溝遮逝栓濯棚塚扉頻泡癒尭慧昂冴渚梢翠琢那槙遥遼瑶皓翔迪
唖逢芦飴溢鰯迂欝厩噂餌焔襖鴎迦晦葛鞄噛澗翰翫徽祇侠卿僅躯喰櫛
屑祁繋倦捲鹸諺巷麹鵠甑采榊柵薩鯖錆珊屡杓灼繍酋曙薯藷哨廠蒋醤
鞘蝕逗摺蝉撰煎煽詮噌遡掻痩遜騨腿黛啄蛸巽辿鱈樽箪註瀦凋捗槌鎚
掴辻鄭擢溺填顛堵屠菟賭塘祷涜瀞噸遁頓謎灘楢禰嚢牌這秤剥箸溌醗
挽樋柊稗逼媛謬廟瀕蔽瞥娩庖蓬頬鱒迄麺儲餅籾鑓愈猷耀莱漣煉蓮榔
蝋鯵鴬蛎撹竃潅頚砿靭賎壷砺梼蕊涛迩蝿桧侭薮篭諌鰺鶯蠣攪竈灌頸
礦靱賤壺礪檮蘂濤邇蠅檜儘藪籠諫冉唹唳嘲堋媾屏捩搆攅斃枦湮珎甄
甍甕硼稱箙粐粮綛綮綟舮芍苒茣荵蔗蛛螂蟒褊覯諞譁跚踉輓遘霤靠鮗
鯲麪淫恢概稽荊捌鴇兔冕冤嚥寃悗枴梛梍爨龝釁頤鬮龜
◆ JIS X 0208-1990

JIS X 0208-1983 に対し、第二水準に2字を追加した他、225文字を字形変更しました。

凜 熙
◆ JIS X 0212-1990

「JIS補助漢字」とも呼ばれます。出版業界などの依頼を受けて新たに 6,067字(漢字 5,801字、非漢字 266字)を追加定義していますが、JIS X 0213 の登場により 0212 は意味を失い、現在ではほとんど使用されていません。16~77区に文字を割り当てています。

◆ JIS X 0208-1997

JIS X 0208-1990 の改訂版です。文字数や字形に変更はありません。「椦」や「妛」などの文字選定根拠不明文字(幽霊文字)の明確化、および、Shift_JIS や ISO-2022-JP エンコーディングが附属書として明文化されました。EUC-JPは採用されませんでしたが、類似の規格(EUC-JPから半角カナとJIS X 0212を除いたもの)が「国際基準版・漢字用8ビット符号」として取り入れられています。

◆ JIS X 0213-2000

「JIS2000」や「新拡張JISコード」とも呼ばれます。JIS X 0208-1997の定義を1面とし、これに非漢字659字、第三水準漢字1,249字を追加、新たな第2面に第四水準漢字2,436字を追加しています。JIS X 0208で4区2点と定義された「あ」は、JIS X 0213では1面4区2点となります。2面は、JIS X 0212 との重複を避け、1~15区、77~94区を使用しています。2001年に正誤表が公開されています。

◆ JIS X 0213-2004

「JIS2004」とも呼ばれます。JIS X 0213-2000 に対して、168字の字形変更、第三水準漢字に「倶叱嘘屏痩剥呑妍并繋」に似た字形の10字を追加しています。

符号化方式

JIS 0208/0212/0213で定義された文字をコンピュータで扱う差異の取り決めを「符号化方式(エンコーディングルール)」と呼びます。Unicodeが登場する以前は下記が使用されていました。

俗称正式名説明
シフトJISShift_JISJIS X 0208/0212/0213 文字コードを、1バイト目が #80~#ff の領域にシフトさせてエンコードする方式です。
EUCEUC-JPJIS X 0208/0212/0213 文字コードを、1バイト目も 2バイト目も #80~#ff の領域にシフトさせてエンコードする方式です。
JISコードISO-2022-JPJIS X 0208/0212/0213 文字コードを、ESC $ B などのエスケープ文字を用いてエンコードする方式です。

ISO/IEC 2022

各国で定義した文字を総合的に扱えるように、ISO/IEC 2022 という規格が策定されています。#00~#FF までの文字領域を、CL(32文字)、GL(94文字)、CR(32文字)、GR(96文字)の4つの領域に分け、G0~G3の4つの中間バッファを想定します。エスケープシーケンスによって各国の文字コードを中間バッファに「指示」し、これを中間バッファから文字境域に「呼び出す」ことにより、各国言語を扱います。

ISO-2022

例えば、ISO-2022-JPで「AあいうA」という文字列は、「A(#41) 漢字開始(#1B #24 #42) あ(#24 #22) い(#24 #24) う(#24 26) ローマ字開始(#1B #28 #42) A(#41)」と表されます。漢字開始(#1B #24 #42=ESC $ B)は「多バイト94文字集合JIS X 0208をG0に指示する」ことを意味します。ローマ字開始(#1B #28 #42=ESC ( B)は「1バイト94文字集合US-ASCIIをG0に指示する」ことを意味します。ISO-2022-JPでは、予めG0はGLに呼び出されているため、GLの領域を、漢字(JIS X 0208)とローマ字(US-ASCII)で切り替えながら使用することが可能になります。

領域説明
CL領域#00~#1f。32字。Control Left。
GL領域#21~#7e。94字。Graphic Left。
CR領域#80~#9f。32字。Control Right。
GR領域#a0~#ff。96字。Graphic Right。
領域説明
G094文字分の中間バッファ。#20(SP)と #7f(DEL)の 2文字分少ない。
G196文字分の中間バッファ。
G296文字分の中間バッファ。
G396文字分の中間バッファ。
シフト方法シーケンス呼び名説明
ロッキングシフト#0fSI(Shift In)G0をGLに呼び出す。
#0eSO(Shift Out)G1をGLに呼び出す。
ESC nLS2(Locking Shift 2)G2をGLに呼び出す。
ESC oLS3(Locking Shift 3)G3をGLに呼び出す。
無し無しG0はGRに呼び出せない。
ESC "LS1R(Locking Shift 1 Right)G1をGRに呼び出す。
ESC }LS2R(Locking Shift 2 Right)G2をGRに呼び出す。
ESC |LS3R(Locking Shift 3 Right)G3をGRに呼び出す。
シングルシフトESC NSS2(Single Shift 2)G2をGLに1文字呼び出す。
ESC OSS3(Single Shift 2)G3をGLに1文字呼び出す。
#8eSS2(Single Shift 2)G2をGRに1文字呼び出す。
#8fSS3(Single Shift 3)G3をGRに1文字呼び出す。
文字集合シーケンス説明
1バイト
94文字集合
ESC ( F1バイト94文字集合F を G0 に指示する。
ESC ) F1バイト94文字集合F を G1 に指示する。
ESC * F1バイト94文字集合F を G2 に指示する。
ESC + F1バイト94文字集合F を G3 に指示する。
1バイト
96文字集合
無し1バイト96文字集合F は G0 には指示できない。
ESC - F1バイト96文字集合F を G1 に指示する。
ESC . F1バイト96文字集合F を G2 に指示する。
ESC / F1バイト96文字集合F を G3 に指示する。
多バイト
94文字集合
ESC $ ( F
ESC $ F
多バイト94文字集合F を G0 に指示する。
ESC $ ) F多バイト94文字集合F を G1 に指示する。
ESC $ * F多バイト94文字集合F を G2 に指示する。
ESC $ + F多バイト94文字集合F を G3 に指示する。
多バイト
96文字集合
無し多バイト96文字集合F は G0 には指示できない。
ESC $ - F多バイト96文字集合F を G1 に指示する。
ESC $ . F多バイト96文字集合F を G2 に指示する。
ESC $ / F多バイト96文字集合F を G3 に指示する。
文字集合F説明
1バイト
94文字集合
AUK-ASCII
BUS-ASCII
JJIS X 0201-1976-Roman
HJIS X 0201-1976-Roman(本当はスウェーデン文字)
IJIS X 0201-1976-Katakana
1バイト
96文字集合
AISO 8859-1
BISO 8859-2
CISO 8859-3
DISO 8859-4
LISO 8859-5
GISO 8859-6
FISO 8859-7
HISO 8859-8
MISO 8859-9
XISO 8859-10
多バイト
94文字集合
@JIS X 0208-1978(旧JIS)
AGB 2312-80(中国語簡体字)
BJIS X 0208-1983/1990/1997(新JIS)
CKS C 5601-1987(ハングル)
DJIS X 0212-1990(JIS補助漢字)
OJIS X 0213-2000-1面
PJIS X 0213-2000-2面
◆ ISO-2022-JP (JIS X 0202)

ISO/IEC 2022 を参考にして、日本では下記などのエンコーディングルールが使用されています。

規格説明
ISO-2022-JPRFC1468。下記のシーケンスを使用する。
 ESC ( B - ASCII
 ESC ( J - JIS X 0201-1976 ("Roman" set)
 ESC $ @ - JIS X 0208-1978
 ESC $ B - JIS X 0208-1983
ISO-2022-JP-1RFC2237。ISO-2022-JPに下記のシーケンスを追加。
 ESC $ ( D - JIS X 0212-1990
ISO-2022-JP-2RFC1554。下記のシーケンスを使用可能。
 ESC ( B - ASCII
 ESC ( J - JIS X 0201-Roman
 ESC $ @ - JIS X 0208-1978
 ESC $ B - JIS X 0208-1983
 ESC $ A - GB2312-1980
 ESC $ ( C - KSC5601-1987
 ESC $ ( D - JIS X 0212-1990
 ESC . A - ISO8859-1
 ESC . F - ISO8859-7(Greek)
ISO-2022-JP-3
(ISO-2022-JP-3-strict)
下記のシーケンスを使用。
 ESC ( B - ASCII
 ESC $ B - JIS X 0208-1983
 ESC $ ( O - JIS X 0213-2000 1面
 ESC $ ( P - JIS X 0213-2000 2面
ESC ( J と ESC $ @ は廃止。互換性のためにESC $ Bの使用も許すが、森鴎外の「鴎」などJIS X 0208とJIS X 0213で互換性の無い文字についてはJIS X 0213のシーケンスを用なくてはならない。
ISO-2022-JP-3-compatibleJIS X 0208とJIS X 0213で互換性の無い文字についてもJIS X 0208のシーケンスを用いることを許すもの。
ISO-2022-JP-3-plane1ISO-2022-JP-3から2面(ESC $ ( P)を除いたもの。
ISO-2022-JP-2004ISO-2022-JP-4にJIS X 0213-2004を加えたもの。
 ESC ( B - ASCII
 ESC $ B - JIS X 0208-1983
 ESC $ ( O - JIS X 0213-2000 1面
 ESC $ ( P - JIS X 0213-2004 2面
 ESC $ ( Q - JIS X 0213-2004 1面
JIS X 0213-2004と互換性の無い文字に関しては、JIS X 0213-2004のシーケンスを使用しなくてはならない。
ISO-2022-JP-2004-plane1ISO-2022-JP-2004から2面(ESC $ ( P)を除いたもの。
CP50220Microsoft Windowsの規約。ISO-2022-JPをベースに、半角カタカナ、拡張文字(NEC特殊文字、NEC選定IBM拡張文字、ユーザ定義文字)を追加したもの。半角カタカナは全角文字に変換される。
 ESC ( B - ASCII
 ESC ( J - JIS X 0201-Roman
 ESC ( I - JIS X 0201-Katakana
 ESC $ @ - JIS X 0208-1978
 ESC $ B - JIS X 0208:1997+拡張文字
半角カナの「アイウ」は、ESC$B(#1B #24 #42) ア(#25 #22) イ(#25 #24) ウ(#25 #26) ESC(B(#1B #28 #42)となる。
CP50221CP50220をベースに、半角カタカナをISO-2022のロッキングシフトで扱えるようにしたもの。半角カナの「アイウ」は、ESC(I(#1B #28 #49) ア(#31) イ(#32) ウ(#33) ESC(B(#1B #28 #42)となる。
CP50222CP50220をベースに、半角カタカナをISO-2022のシングルシフトで扱えるようにしたもの。半角カナの「アイウ」は、ESC(J(#1B #28 #4A) SO(#0E) ア(#31) イ(#32) ウ(#33) ESC(B(#1B #28 #42)となる。
規格ASCIIJIS X 0201-1976-RomanJIS X 0208-1978JIS X 0208-1983JIS X 0212-1990JIS X 0213-2000 1面JIS X 0213-2000 2面JIS X 0213-2004 1面その他
シーケンスESC ( BESC ( JESC $ @ESC $ BESC $ ( DESC $ ( OESC $ ( PESC $ ( Q
ISO-2002-JP
ISO-2002-JP-1
ISO-2002-JP-2GB2312-1980[ESC$A]
KSC5601-1987[ESC$(C]ISO8859-1[ESC.A]
ISO8859-7[ESC.F]
ISO-2002-JP-3
ISO-2002-JP-3-compatible
ISO-2002-JP-3-plane1
ISO-2002-JP-2004
ISO-2002-JP-2004-plane1
CP50220NEC特殊文字
NEC選定IBM拡張文字
ユーザ定義文字
半角カナ[ESC(I]
CP50221NEC特殊文字
NEC選定IBM拡張文字
ユーザ定義文字
半角カナ[ロッキングシフト]
CP50222NEC特殊文字
NEC選定IBM拡張文字
ユーザ定義文字
半角カナ[シングルシフト]
※半角カナはJIS X 0201-1976-Katakanaを意味する
※△は、上位文字セットと互換性の無い文字には使用できないことを意味する。

EUC-JP(Extended UNIX Code-Japan)

UNIX でよく用いられる文字コードです。ローマ字(ASCII)はそのまま、通常の漢字は最上位ビットをたて、半角カナは SS2(#8e)、第三・第四水準は SS3(#8f)を用います。

ビット説明
0xxxxxxxJIS X 0201 ローマ字。
1xxxxxxx 1xxxxxxxJIS X 0213 1面(第一水準、第ニ水準、第三水準)。区、点にそれぞれ #a0 を加えます。例えば「あ(4区2点)」はEUC では #a4 #a2 になります。
10001110 1xxxxxxxJIS X 0201 半角カタカナ。#8e は SS2(シングルシフト2)と呼ばれています。例えば半角カタカナの「アイウ」#b1 #b2 #b3 は、#8e #b1 #8e #b2 #8e #b3 となります。
10001111 1xxxxxxx 1xxxxxxxJIS X 0212(補助漢字)や、JIS X 0213 2面(第四水準)。#8f は SS3(シングルシフト3)と呼ばれます。

Shift_JIS

    ---------------------------------------------------------
    1バイト目        2バイト目
    ---------------------------------------------------------
    0x81-0x9F  0x40-0x7E,0x80-0xFC  JIS X 0213 1面
    0xE0-0xEF  0x40-0x7E,0x80-0xFC  JIS X 0213 1面
    0xF0-0xFC  0x40-0x7E,0x80-0xFC  JIS X 0213 2面
    ---------------------------------------------------------

IANA登録キャラクタセット

規格説明
US-ASCIIASCII。
ISO-2022-JPJISコード。JIS X 0208。RFC1468。
ISO-2022-JP-2JISコード。JIS X 0221。RFC1554。
Shift_JISシフトJIS。JIS X 0201-1997、JIS X 0208-1997 をベースにシフトJIS 変換したもの。
Windows-31JShift_JISに、NEC特殊文字(13区)、NEC選定IBM特殊文字(89~92区)、IBM拡張文字(115~119区)を加えたもの。
EUC-JPEUC。(1) #00-#7f 領域の US-ASCII、(2) #80-#ff 領域にシフトした JIS X 0208-1990 文字集合、(3) SS2プレフィックスを用いた半角カタカナ、(4) SS3プレフィックスを用いた JIS X 0212-1990 文字集合。
ISO-8859-1Latin-1。西欧諸語。
ISO-8859-2Latin-2。東欧諸語。
ISO-8859-3Latin-3。エスペラント語など。
ISO-8859-4Latin-4。北欧諸語。
ISO-8859-5Cyrillic。ロシア語(キリル文字)。
ISO-8859-6Arabic。アラビア語。
ISO-8859-7Greek。ギリシャ語。
ISO-8859-8Hebrew。ヘブライ語。
ISO-8859-9Latin-5。トルコ語。
ISO-8859-10Latin-6。北欧語。
ISO-8859-13Latin-7。
ISO-8859-14Latin-8。
ISO-8859-15Latin-9。
KOI8-Rロシア語。RFC1489。
ISO-2022-KR韓国語。
EUC-KR韓国語。KS X 1001。
GB2312簡字体中国語。
Big5繁字体中国語。主に台湾で使用。

JIS規格一覧

規格説明
JIS X 0201半角文字を定義
JIS X 0202ISO-2022の日本語版
JIS X 0208漢字
JIS X 0212漢字
JIS X 0213漢字
JIS X 0211制御コード
JIS X 0221ISO 10646(≒Unicode)の日本語版
ISO/IEC 646半角文字
ISO/IEC 10646≒Unicode

API

◆ WideCharToMultiByte

WindowsでUnicodeの文字列を、任意のコードページに変換するにはWideCharToMultiByte()を用いる。シフトJISに変換するにはCP932を用いるが正式なShift_JISとは若干異なる。JISコードに変換するにはCP50220、CP50221、CP50222を用いるが、正式なISO-2022-JPとは若干異なる。EUCに変換するにはCP20932を用いるが、正式なEUC-JPとは若干ことなる。

932 ANSI/OEM - Japanese, Shift-JIS
1200 Unicode UCS-2 Little-Endian (BMP of ISO 10646)
1201 Unicode UCS-2 Big-Endian
20932 JIS X 0208-1990 & 0121-1990
50220 ISO 2022 Japanese with no halfwidth Katakana
50221 ISO 2022 Japanese with halfwidth Katakana
50222 ISO 2022 Japanese JIS X 0201-1989
50930 Japanese (Katakana) Extended
50939 Japanese (Latin) Extended and Japanese
51932 EUC - Japanese
65000 Unicode UTF-7
65001 Unicode UTF-8

その他

規格説明
CJK中国(C)、日本(J)、韓国(K)で使用される漢字の総称。
KS C 5601-1992韓国で一般に用いられる 8224字(ハングル 2350字、漢字 4888字、ASCIIや記号 986字)。
KS C 5657-1991韓国の補助漢字。2858字。
GB 1988-1989中国語ASCII。
GB 2312-1980中国語基本集。7445字(一級3755字、二級3008字)。
GB 12345-1990中国語補助集。7583字。
GB 7589-1987中国語第ニ補助集。7237字。
GB 7590-1987中国語第四補助集。7039字。
BIG5台湾の文字集合。13523字。
CNS 11643-1992台湾の文字集合。約55000字。