パソコン(PC)で人名や地名を入力する際、特殊な漢字で該当する文字が見つからなかった経験はないだろうか。
情報処理推進機構(IPA)は2010年9月から、行政で用いられる人名漢字など約6万字の漢字を整備する「文字情報基盤整備事業」を進め、その国際規格化が完了したと17年12月25日に発表した。IPAに取材し、詳しく聞いた。
「渡辺さん」の「辺」にはいろいろな文字がある
文字情報基盤とは何か。IPAの発表資料では「辺」という文字を例に取っている(画像参照)。「渡辺さん」「田辺さん」のように、人名に使われる「辺」の文字は実際には多種類だが、私たちが普段接する常用漢字2136文字の中には「辺」しか含まれていない。一方、「実用上の情報交換の必要性から、出現頻度等を元に文字を選定」した「JIS X 0213漢字」が常用漢字を含め1万50文字あり、新聞記事やウェブサイトに掲載する情報、一般向け公文書など広く使われる。この範囲だと「辺」のほかに「邉」「邊」が加わる。だがここまででも「範囲外」の文字がいくつもあるのは、記事中の画像で示されている通りだ。
文字情報基盤とは、こうしたくくりとして最も範囲が広く、「戸籍のオンライン手続に使用することを目的として整理した文字」も含めて合計5万8861文字ある。ただし「JIS X 0213」から外れたおよそ4万8800字は、「個人のアイデンティティーに関わる文字」ではあるが用途は限定的だ。そのためコンピューター用に標準的に提供されている文字セットに含まれておらず、使い手が自力で作成、追加する「外字」となる。
自治体では住民票や戸籍の人名の漢字を正確に表記させるため、外字をつくることがある。だが同じ文字を別の自治体が作字した場合、自治体ごとに異なる文字コードを登録していたため一貫性がなく、自治体を超えてコンピューター上の文書で外字を「共有」できなかった。コードが違うため、相手のところでは「文字化け」してしまうのだ。
IPAは経済産業省などと2010年から、漢字5万8861文字について統一した文字コードに基づくフォントや、文字情報基盤の整備を進めてきた。ありとあらゆる漢字というわけではなく、戸籍、住民票に必要となる文字が対象だ。整備が完了した文字は「IPAmj明朝フォント」として、IPAのウェブサイトからダウンロードし使用できる。最新版は16年4月に公開されたものだ。
1月末に国際規格に基づいたフォント公開予定
IPAの発表によると、国際標準化機構(ISO)が文字コード国際規格書「ISO/IEC 10646」最新版を発行したことが17年12月22日に判明した。IPA広報部に確認すると、ここにIPAから提案していた文字すべてが収録された。「国際規格化の完了」が意味するのは、これだ。IPAでは18年1月末をめどに、この新規格に基づいたフォントを公開する予定だという。
新フォントをPCにインストールすれば、マイクロソフトの基本ソフト(OS)「ウィンドウズ」や業務ソフト「オフィス」ほか、現在市販されている最新のOS、ワープロ、ブラウザがPCに入っていればこのフォントに実装された文字すべてを使えるとIPAは説明した。
ただし、フォントが整備されたからといって、PCの「カナ漢字変換キー」を押してその文字がすべて出てくるかどうかは、PCやソフト側の機能の話になるので別問題となる。それでも文字コードの番号を探して入力したり、IPAが提供する検索システムで該当文字を検索したうえで「コピペ」したりできるので、画面上に表示、あるいは印刷できる。
自分だけでなく相手のPCにも「文字化け」せずに正しく表示させるには、相手も同じように国際規格に準拠したフォントをインストールしていなければならない。現状で該当するフォントは、IPAが今月中に発表予定のものだけだが、今後は民間メーカーが新しいフォントを開発するかもしれない。
気になるのが、著名人の名前やニュースにしばしば登場する地名で、カナ書きや別の漢字になっている表記だ。例えば、草なぎ剛さんの「なぎ」(弓偏に、「前」の様な字とその下に「刀」)や、宮「崎」あおいさんの「ざき」(崎のつくりの上が「大」ではなく「立」)、中国広東省深センの「セン」の字は今後、漢字で表記できるのか。IPA広報によると、いずれも新フォントに収録されているという。これら3文字は、日本工業規格(JIS)による文字分類の第1~第4水準のうち、第3水準に属する。第1水準が最も基本的な文字だ。現状では「旧式を含め、ほぼすべての情報機器で扱えるとの判断から、ウェブページや電子メールなどに用いる文字を第2水準までに限定するといったガイドラインがよくあります」という。このため第3、第4水準が「環境依存文字」として、文字化けを起こすことがある。
今回の国際規格化では、第4水準まですべてを含んでいる。新フォントが普及すれば、草なぎさんの名前が正しく、文字化けせずに漢字表記される日が来そうだ。