人気高まるデータサイエンティストの仕事とは?「資格」は必要?

富士フイルムが開発した糖の吸収を抑えるサプリが500円+税で

   今春の大学入試でデータサイエンス系の学部の人気が高まっている。

   今年新設された一橋大学ソーシャル・データサイエンス学部の倍率は、なんと25.8倍(後期日程)という狭き門。いったい何が魅力なのか?

   本書「データサイエンティスト 基本スキル84」(日本経済新聞出版)は、就職や転職でデータサイエンティストになりたいと考えている人に向けて書かれた本だ。

「データサイエンティスト 基本スキル84」(野村総合研究所データサイエンスラボ編)日本経済新聞出版

   野村総合研究所データサイエンスラボが編者。2021年に刊行した「データサイエンティスト入門」(日経文庫)では、データサイエンティストがなぜいま注目されているのか、どんな将来性があるのか――などを紹介した。

   こちらの本でデータサイエンティストに興味を持った人から、次に読むべき本を探したが、機械学習やPythonなどの専門書しか見つからない、という声を受けて執筆したのが本書だ。

最も知っておきたい基礎知識は「統計学」

   本書はデータサイエンティストとして知っておくべき基礎知識、資格、業務、課題などをビジュアルかつ網羅的に解説している。

   データサイエンティストとして最も知っておきたい基礎知識は「統計学」だ。

   分散、仮説検定、相関係数などの概念について説明している。さらに、AI・機械学習・ディープラーニング、アルゴリズム、回帰分析、時系列分析、自動機械学習などの基礎知識にも触れている。

   実際にデータサイエンティストはどんな仕事をするのか?

   データサイエンティストの象徴的な業務として、データサイエンスのモデル作りを挙げている。たとえば、顧客の商品が「どのような条件で売れやすくなるか」という要因を明らかにしたり、「どのような販売促進活動を行うと、どれくらいの売上増が見込めるか」という予測を立てたりする。

   そのモデルに求められるのは、「解釈のしやすさ」と「精度」である。精度を高めると、モデルが複雑になり、「解釈のしやすさ」が失われるというトレードオフの関係が生じるので、そのバランスをとるモデル作りが求められるという。

   データサイエンティストは、プログラミングでデータ分析に必要な環境を整えたり、データを加工したり、あるいは機械学習のモデルを適用したりしなくてはならない。代表的な分析ツール(プログラミング言語および実行環境)であるPythonを例に説明している。

   Pythonでは、データ分析の前処理として、数値計算やグラフ描写などの分析作業の実行を可能にするライブラリ(特定の機能を果たすプログラム群)を呼び出す。そのために、短いコード(プログラムの命令文)を書いて実行する必要がある。

   それに加え、クラウドサービスなどからデータを取得するためにAPI(Application Programming Interface)を操作する際も同様にコードを書く。

   データ分析の環境が整ったら、データの構造に不備がないかや、データに欠損がないかなどを、コードを実行して確認する。データの欠損が確認された場合には、平均値を代入するなどの加工を行ってから、機械学習のモデルを適用する。

姉妹サイト