IT化が進んで「ビッグデータ」という言葉がメディアに登場したのは2010年ごろ。当初はサンプル抽出のデータと誤差はほとんどないという見方もあり、利用は限定されていたが、その後のITの加速度的な進化で、経済活動の新しい可能性を開く存在になっているという。それはAI(人工知能)との二人三脚。AIはビッグデータによってさらに賢くなり、新しい活動を可能にしていくというわけだ。
「データ資本主義 21世紀のゴールドラッシュの勝者は誰か」(野口悠紀雄著)日本経済新聞出版社
グーグルは日本企業の1万倍のデータを活用
本書「データ資本主義 21世紀のゴールドラッシュの勝者は誰か」によれば、世界ではビッグデータを原動力に大きな変化が起きているが、日本は大きく遅れをとっている。「世界最先端の動きに置き去りにされているといわざる得ない状況」だ。著者は、「『超』整理法」シリーズなどで知られる元大蔵省官僚で経済学者の野口悠紀雄さん。「(日本の)こうした状態を変えるためにまず必要なのは、いま何が起きているかを正確に理解すること」。データをめぐる状況の理解に資するため、その整理に取り組んだのが本書という。
本書が想定する読者について野口さんは、データや情報に関する専門家ばかりではなく「日本の現状に問題を感じているすべて」の人々であるとし、専門知識などなくても読み進められるよう書かれている。
近年は、ビッグデータやAIのほか、データサイエンス、プラットフォーム、また、巨大IT企業をグループ化した略称のGAFAやBATなど、テクノロジーについての新語が増え、こうしたことも、現状をわかりにくくしている理由の一つ。本書では、ビッグデータの「大きさ」を説明するため、情報のサイズ(容量)、「バイト(B)」から説き起こす。
バイトの1000倍はキロバイト(KB)、さらにその1000倍がメガバイト(MB)、以後同じように、ギガバイト(GB)、テラバイト(TB)と、わたしたちが使う容量は拡大。ビッグデータの世界では、ペタバイト(PB)、エクサバイト(EB)、ゼタバイト(ZB)と続いてきている。マイクロソフトのビル・ゲイツ元会長は1981年に「パソコンのメモリは640KB以上を必要としない」と言ったそうだが、そのころは大容量の「ビッグデータ」の扱う時代がやってこようとは考えられていなかったのだろう。
いまわたしたちが扱うデータのサイズは数GBから数TB。現代の情報環境は、ゲイツ氏が発言した80年代から40年ほどの間に10億倍に増加したことになる。このサイズだけでも「天文学的」なのだが、それはわたしたちの日常でのレベル。ビッグデータはさらにその10億倍の規模。グーグルは全世界で、米国家安全保障局(NSA)の2倍のデータを保有、そのサイズは「10ZB程度と考えることができる」という。これは、日本企業が扱っている情報の1000~1万倍とみられる。
グーグル、FBの「マネタイゼイションの仕組み」
ビッグデータをめぐる様相がこの10年ほどの間に変わったのは、インターネットの利用拡大に加えて、スマートフォンの普及が大きな理由だ。検索や閲覧、SNS利用の増加、EC利用の伸び、アプリの拡大などで、米国のグーグルをはじめ、アップル、フェイスブック、アマゾンのGAFAや、中国のバイドゥ、アリババ、テンセントのBATには大量のデータが集まるようになった。
データは集まっても利用しなければ価値はない。必要なのは「マネタイゼイションの仕組み」。巨大IT企業のなかで成功したのはグーグルとフェイスブックだという。「宇宙サイズ」の量のデータにAIをからませることにより「初めて利益を生み出すことが可能になった」
AIの学習データには、情報の層が厚いビッグデータを用いる方が精度の高い結果が得られる。その点でグーグルやフェイスブックはとくにAIの技術開発で先行できたと考えられる。人物などの「プロファイリング」のほか「スコアリング(点数付け)」「フィルタリング(不正取引などの検知)」のサービスが可能になり、とくにプロファイリングはターゲティング広告(相手の属性に合わせた広告)に応用され、巨額の収入を得てきた。
グーグルはまた、グループに加えた「ユーチューブ」の情報をAIに学習させ画像認識能力を開発・強化。サイトにアップされている動画から無作為に抽出した画像1000万枚を用い、9階層のネットワークで「ディープラーニング」を実行した。ディープラーニングは、人間の神経細胞(ニューロン)と似た働きをする仕組み(ニューラルネットワーク)をコンピューターの中につくり、大量のデータを使って情報の処理法を習熟させようとする方法だ。
1000台のコンピューターで3日間かけて学習を行った結果、人間の顔、ネコの顔、そして人間の体に反応するニューロンができたという。パターン認識はそれまで、方法論はあったがそれでは実現できず、理論ではなくビッグデータの量がものをいい成し得たものだ。パターン認識は、今後実用化するとみられる自動運転などで不可欠とされる。
「ビッグデータ利用元年の到来」の日本だったが......
一方、日本でのビッグデータの利用状況はどうかというと米国や中国と比べてかなり遅れている状況。利用実用例は少なく、代表的なのはコンビニエンスストアのポイントカードで集められるデータだ。「2019年版情報通信白書」では「ビッグデータ利用元年の到来」をうたっているが「そこに述べられているのは法整備」だけで、利活用の具体例があまり示されていない。
本書ではまた、第5世代移動通信規格「5G」でも、米国や韓国、中国に比べて立ち遅れが目立つことを指摘。日本の関係業界の奮起が待たれるところだ。
「データ資本主義 21世紀のゴールドラッシュの勝者は誰か」
野口悠紀雄著
日本経済新聞出版社
税別1600円