原発関連文書に「検索対策疑惑」持ち上がる 「ロ」を「口」、「力」を「カ」に細工したのか

建築予定地やご希望の地域の工務店へ一括無料資料請求

画像ファイルをOCRで読み込んだ際のトラブルか

   ネット上には「わざと文字を変えて検索されにくくしたのではないか」と批判が起きた。何かを隠すための細工、「探されたくない資料」のためのネット対策、という疑いが、電力会社や原発当局に向けられた。

   原子力規制委の広報に話を聞くと、確かにストロンチウムの表記で一部漢字が交じっていたこと、指摘を受けて修正したことを認めた。原因は「単純ミス」だとして、こう説明した。

   まず資料をウェブサイト上に掲載するには、一定の作業が必要だ。例えば、問題視されたワーキンググループの配布資料は1~7に番号がふられてリスト化されているが、これもウェブコンテンツ化の作業のひとつ。資料自体は東電から提供されたもので、必要に応じて分類して項目ごとにPDFファイルをダウンロードできるようにしたようだ。

   会議が開かれた2014年1月24日は、同時刻に3件の会議が行われたという。各会議とも資料の分量が多く、加えて庁舎の外で開かれた会議もあって当日はウェブ作業のための人手が不足していた。さらに「(東電から)渡された資料は画像ファイルだった」ことが、トラブルの一因となった可能性が高い。OCR(光学文字認識)装置を使ってファイルを読み込み、テキスト化して資料の見出しとしてサイトに載せたのだが、ストロンチウムの「ト」が「卜」に、「ロ」が「口」に化けてしまったという。元データがテキストでなく画像だったため、OCRの読み込みの精度が落ちたと考えられる。悪条件が重なったうえでのミスではあるが、意図的に資料を検索しにくくしたわけではないと疑惑を否定した。

   「原子力」「柏崎」についても類似の問題が発生した可能性がある。それぞれ「当て字」に入れ替えて検索した際に出てくる検索結果はPDFファイル、それも編集制限がかけられてテキストのコピーができない形式との共通点があった。ツイッターにはこの点に言及する人の投稿が見られ、例えば三重大学・学長補佐(情報担当)の奥村晴彦教授は、「原子カ」で検索されたPDFは保護設定がされているため、グーグルのOCRが間違ったらしいとツイート。PDFにタイトルがない場合はOCRに頼らざるを得ないとも補足した。

   「火力発電」「水力発電」でも、「力」をカタカナの「カ」に置き換えて検索したら、原子力のときと同様にPDFファイルが多く表示されたとの報告もある。原発関連の検索に限らずに起きる現象、という主張だ。ただ、PDF文書の中身を読むと「当て字」で書かれた語句が見当たらず、検索結果で表示される見出しだけ一部文字が置き換えられているのは謎、という人もいた。

1 2
姉妹サイト