人気高まるデータサイエンティストの仕事とは?「資格」は必要?

建築予定地やご希望の地域の工務店へ一括無料資料請求

   今春の大学入試でデータサイエンス系の学部の人気が高まっている。

   今年新設された一橋大学ソーシャル・データサイエンス学部の倍率は、なんと25.8倍(後期日程)という狭き門。いったい何が魅力なのか?

   本書「データサイエンティスト 基本スキル84」(日本経済新聞出版)は、就職や転職でデータサイエンティストになりたいと考えている人に向けて書かれた本だ。

「データサイエンティスト 基本スキル84」(野村総合研究所データサイエンスラボ編)日本経済新聞出版

   野村総合研究所データサイエンスラボが編者。2021年に刊行した「データサイエンティスト入門」(日経文庫)では、データサイエンティストがなぜいま注目されているのか、どんな将来性があるのか――などを紹介した。

   こちらの本でデータサイエンティストに興味を持った人から、次に読むべき本を探したが、機械学習やPythonなどの専門書しか見つからない、という声を受けて執筆したのが本書だ。

最も知っておきたい基礎知識は「統計学」

   本書はデータサイエンティストとして知っておくべき基礎知識、資格、業務、課題などをビジュアルかつ網羅的に解説している。

   データサイエンティストとして最も知っておきたい基礎知識は「統計学」だ。

   分散、仮説検定、相関係数などの概念について説明している。さらに、AI・機械学習・ディープラーニング、アルゴリズム、回帰分析、時系列分析、自動機械学習などの基礎知識にも触れている。

   実際にデータサイエンティストはどんな仕事をするのか?

   データサイエンティストの象徴的な業務として、データサイエンスのモデル作りを挙げている。たとえば、顧客の商品が「どのような条件で売れやすくなるか」という要因を明らかにしたり、「どのような販売促進活動を行うと、どれくらいの売上増が見込めるか」という予測を立てたりする。

   そのモデルに求められるのは、「解釈のしやすさ」と「精度」である。精度を高めると、モデルが複雑になり、「解釈のしやすさ」が失われるというトレードオフの関係が生じるので、そのバランスをとるモデル作りが求められるという。

   データサイエンティストは、プログラミングでデータ分析に必要な環境を整えたり、データを加工したり、あるいは機械学習のモデルを適用したりしなくてはならない。代表的な分析ツール(プログラミング言語および実行環境)であるPythonを例に説明している。

   Pythonでは、データ分析の前処理として、数値計算やグラフ描写などの分析作業の実行を可能にするライブラリ(特定の機能を果たすプログラム群)を呼び出す。そのために、短いコード(プログラムの命令文)を書いて実行する必要がある。

   それに加え、クラウドサービスなどからデータを取得するためにAPI(Application Programming Interface)を操作する際も同様にコードを書く。

   データ分析の環境が整ったら、データの構造に不備がないかや、データに欠損がないかなどを、コードを実行して確認する。データの欠損が確認された場合には、平均値を代入するなどの加工を行ってから、機械学習のモデルを適用する。

前処理に多くの時間がかかる

   データサイエンティストが直面する課題をいくつか挙げている。

   現実のデータ分析では、完璧なデータはないという。上述のデータの欠損を除くために、相当時間がかかるそうだ。「データ分析は前処理の時間が8割」という言葉を紹介している。

   前処理で時間がかかった具体例として、エリアを表す変数で、「都道府県」「都道府県2」「地域」「県」など、似たような項目が乱立。入力値も、漢字、かな、末尾の県の有無、都道府県に「関東」など、バラバラだったことを挙げている。

   データ提供者の「データは完璧にそろっている」という言葉を鵜呑みにすると、データ分析を始める前に、3日徹夜するような事態に陥ることもあるという。

   データサイエンティストの歴史は浅く、企業の中では「キャリアパスで見本になる人がいない」という不安もあるようだ。

   業務内容の転換、社内異動、転職などで、途中からデータサイエンティストになった人が多いため、データサイエンティストとしての管理職はどうなるのか、40~50代ではどういう業務を行っているのかを心配する声があるのだ。

   一方、データサイエンティスト協会がデータサイエンティストとして働いている人を対象に、持っている資格とこれから取得したい資格についてアンケート調査を行った。

   持っている資格の1位は、AI・ディープラーニングに関する知識が問われる「G(ジェネラリスト)検定」だった。2位はIT技術者の国家資格である「基本情報技術者」、3位は統計検定(2級以上)。

   これから取りたい資格では、統計検定(2級以上)が1位だった。これは、データサイエンティストの登竜門とも言える資格だ、としている。

   2位には2021年にデータサイエンティスト協会が創設した、「データサイエンティスト検定(リテラシーレベル)」が続いた。こちらは、データサイエンティストに必要な3つの能力(データサイエンス力、データエンジニアリング力、ビジネス力)がバランス良く問われるもので、今までになかった切り口の資格だと評価している。

資格が「引き出しの多さ」示す

   ただ、注意したいこととして、「残念ながら、〇〇の資格を取れば、データサイエンティストに必ずなれる、というものは存在しません」とあった。

   しかしながら、当のデータサイエンティストたちは、スキルアップのために、さまざまな資格を取ろうとしている。それは守備範囲が広がっているからだという。

   ひと昔前までのデータ分析の実務は、いわゆる統計ソフトを使うだけで完結していたが、近年は、データ分析の「前処理」やプログラムを書くなど、自分でしなければならないことが増えている。

   資格を取ることは、こうした「引き出しの多さ」を示すための、最も分かりやすい方法だという。

   これからのデータサイエンティストに求められるものとして、「現場のビジネス」を理解できる力、専門的なことを「わかりやすく」伝える力、具体的な「最適解」を提案する力などを挙げている。

   経済産業省の試算によると、日本の企業において、データサイエンティストが含まれる先端IT人材は、2030年には約54万人不足すると言われている。ビジネスに「科学」を導入したデータサイエンティストが活躍する領域はますます増えそうだ。(渡辺淳悦)

「データサイエンティスト 基本スキル84」
野村総合研究所データサイエンスラボ編
日本経済新聞出版
1100円(税込)

姉妹サイト