前処理に多くの時間がかかる
データサイエンティストが直面する課題をいくつか挙げている。
現実のデータ分析では、完璧なデータはないという。上述のデータの欠損を除くために、相当時間がかかるそうだ。「データ分析は前処理の時間が8割」という言葉を紹介している。
前処理で時間がかかった具体例として、エリアを表す変数で、「都道府県」「都道府県2」「地域」「県」など、似たような項目が乱立。入力値も、漢字、かな、末尾の県の有無、都道府県に「関東」など、バラバラだったことを挙げている。
データ提供者の「データは完璧にそろっている」という言葉を鵜呑みにすると、データ分析を始める前に、3日徹夜するような事態に陥ることもあるという。
データサイエンティストの歴史は浅く、企業の中では「キャリアパスで見本になる人がいない」という不安もあるようだ。
業務内容の転換、社内異動、転職などで、途中からデータサイエンティストになった人が多いため、データサイエンティストとしての管理職はどうなるのか、40~50代ではどういう業務を行っているのかを心配する声があるのだ。
一方、データサイエンティスト協会がデータサイエンティストとして働いている人を対象に、持っている資格とこれから取得したい資格についてアンケート調査を行った。
持っている資格の1位は、AI・ディープラーニングに関する知識が問われる「G(ジェネラリスト)検定」だった。2位はIT技術者の国家資格である「基本情報技術者」、3位は統計検定(2級以上)。
これから取りたい資格では、統計検定(2級以上)が1位だった。これは、データサイエンティストの登竜門とも言える資格だ、としている。
2位には2021年にデータサイエンティスト協会が創設した、「データサイエンティスト検定(リテラシーレベル)」が続いた。こちらは、データサイエンティストに必要な3つの能力(データサイエンス力、データエンジニアリング力、ビジネス力)がバランス良く問われるもので、今までになかった切り口の資格だと評価している。