インターネット上で原発関連の情報を検索する際、正しい語句でなく一部を「当て字」にすると、通常の検索では上位に表示されない文書が続々と出てきたと、ネット掲示板やツイッターで報告された。
例えば「ストロンチウム」の「ト」を漢字の「卜(ぼく)」に、「ロ」を漢字の「口(くち)」に書き換えて入力する。「誤表記」にもかかわらず、実際は東京電力や原子力規制委員会、各自治体の文書が並んだ。「不都合な情報を隠すため、当局がわざと文字を置き換えたのではないか」という疑いも出ている。
東電や原子力規制委員会が公表しているPDF文書が続々
原子力という語句の「力(りょく)」をカタナカの「カ」に換えて検索したら驚きの結果になった――。2014年6月8日ごろから、ネット上にこんな内容が書き込まれた。
グーグルで「原子力」と検索すると、トップ画面にはウィキペディアのリンクや「原子力のニュース検索結果」、独立行政法人日本原子力研究開発機構といった項目が並ぶ。ところが最後の1文字を変えて「原子カ」とした場合、結果はまるっきり変わるのだ。中部電力の「原子力安全推進協会取り組み 仕組み ミッション」の文書をはじめ、「平成25年度原子力の安全規制の最適間に関する研究会」「原子力安全規制の転換」「志賀原子力発電所1号機の臨界事故」と、正しく「原子力」と入力した際には最初に出てこなかった見出しが次々に並んだ。
新潟県の東京電力柏崎刈羽原発について調べる際も、「当て字」を入れると全く別の結果が出る。「柏崎」を「ネ白崎」や「木白崎」と「柏」の部分を変えて検索した場合、「原子力」のケースと同じように東電や原子力規制委員会、新潟県がネット上に公表しているPDFの文書が続々と現れた。本来であれば誤字による検索なのに、なぜ検出されるのだろうか。
原子力規制委員会のウェブサイトにも、奇妙な表記があったという。ワーキンググループの配布資料をダウンロードできるリンクの見出しのひとつに、放射性物質のひとつ「ストロンチウム」の表記がある。ところが、カタカナの「ト」が漢字の「卜」に、「カタカナの「ロ」が漢字の「口」に、それぞれ置き換わっていたとネットユーザーが発見した。現在では修正されているが、ユーザーが保存した当時の画面の画像をみると、確かに2文字には若干の違いが見られる。
画像ファイルをOCRで読み込んだ際のトラブルか
ネット上には「わざと文字を変えて検索されにくくしたのではないか」と批判が起きた。何かを隠すための細工、「探されたくない資料」のためのネット対策、という疑いが、電力会社や原発当局に向けられた。
原子力規制委の広報に話を聞くと、確かにストロンチウムの表記で一部漢字が交じっていたこと、指摘を受けて修正したことを認めた。原因は「単純ミス」だとして、こう説明した。
まず資料をウェブサイト上に掲載するには、一定の作業が必要だ。例えば、問題視されたワーキンググループの配布資料は1~7に番号がふられてリスト化されているが、これもウェブコンテンツ化の作業のひとつ。資料自体は東電から提供されたもので、必要に応じて分類して項目ごとにPDFファイルをダウンロードできるようにしたようだ。
会議が開かれた2014年1月24日は、同時刻に3件の会議が行われたという。各会議とも資料の分量が多く、加えて庁舎の外で開かれた会議もあって当日はウェブ作業のための人手が不足していた。さらに「(東電から)渡された資料は画像ファイルだった」ことが、トラブルの一因となった可能性が高い。OCR(光学文字認識)装置を使ってファイルを読み込み、テキスト化して資料の見出しとしてサイトに載せたのだが、ストロンチウムの「ト」が「卜」に、「ロ」が「口」に化けてしまったという。元データがテキストでなく画像だったため、OCRの読み込みの精度が落ちたと考えられる。悪条件が重なったうえでのミスではあるが、意図的に資料を検索しにくくしたわけではないと疑惑を否定した。
「原子力」「柏崎」についても類似の問題が発生した可能性がある。それぞれ「当て字」に入れ替えて検索した際に出てくる検索結果はPDFファイル、それも編集制限がかけられてテキストのコピーができない形式との共通点があった。ツイッターにはこの点に言及する人の投稿が見られ、例えば三重大学・学長補佐(情報担当)の奥村晴彦教授は、「原子カ」で検索されたPDFは保護設定がされているため、グーグルのOCRが間違ったらしいとツイート。PDFにタイトルがない場合はOCRに頼らざるを得ないとも補足した。
「火力発電」「水力発電」でも、「力」をカタカナの「カ」に置き換えて検索したら、原子力のときと同様にPDFファイルが多く表示されたとの報告もある。原発関連の検索に限らずに起きる現象、という主張だ。ただ、PDF文書の中身を読むと「当て字」で書かれた語句が見当たらず、検索結果で表示される見出しだけ一部文字が置き換えられているのは謎、という人もいた。