日立、AIを活用してデータ分析・利活用の準備作業を効率化する「Data Preparation Service」を提供開始

近年、業務データのみならず機器やセンサーから得られたIoTデータなど異種混合なデータをビジネスに活用するニーズが高まっている。しかしながら、現場で生成されるデータには項目の定義情報がないことや同種のデータがシステムごとに異なる名称で管理されることも多いため、実際に分析や利活用を行う際はデータの仕様把握や形式統一、類似データの統合（※1）などの前処理が不可欠である。

こうしたデータ前処理の作業は、データサイエンティストなどが業務有識者にヒアリングを行い、クレンジング（※2）や統合などの検証を繰り返し行う必要があるため、分析作業全体の8割の工数を占めるとも言われている。さらに、データ統合のミスが分析結果に影響し、失敗につながるケースも多いため、作業の専門性や属人性に加え精度面も課題とされている。

そこで、株式会社日立製作所は、データの分析や利活用を行うための準備作業である「データ前処理」を、AIで効率化する「Data Preparation Service」を開発し、提供を開始した。

同サービスは、社内外から収集した多種多様なデータを解析して、仕様や傾向を把握するデータの理解から、クレンジングなどの加工方法の検討・検証、実際の前処理の実行まで、従来は人手で膨大な工数を要していたデータの整形・加工作業をAIで効率化するものである。詳しい特長は以下の通り。

データの仕様や品質をAIで解析し、項目名や外れ値の推定などデータの「理解」を支援

データの仕様理解に必要となる情報を自動で解析する各種機能を提供する。具体的には、速度や緯度経度といったデータの指し示す名称をAIで推測する「データ項目名推定」機能のほか、データの特徴や傾向をAIが解析し、不要なデータや形式の統一・変換が必要なデータなどをグラフ化する「データプロファイル」機能、データ統合の検討に必要なデータ間の関連性を、各データの特徴量から自動で判断し提案する「データ間関連性分析」機能を保有する。

これにより、データの仕様や傾向を容易に把握することを可能とし、業務有識者や各データ提供元へのヒアリング、仕様書の確認、品質調査などデータの「理解」に関わる業務負荷を軽減する。

データ加工方法の共有やコーディングレスの画面操作により、ロジック検証を効率化

クレンジングや統合に関するデータの加工方法を共有できる「前処理ロジック（※3）共有」機能により、あらかじめ登録された標準的なロジックに加え、汎用的なロジックやデータサイエンティストなどの熟練者が有する専門ロジックをチームやプロジェクト内で効率的に共有できる。また、欠損値の補完や異常値・重複データの排除などの専門性の高い加工作業を検証できるため、前処理のためのロジック検討・検証の作業効率化とスキル向上に寄与する。

さらに、データ仕様の理解からロジックの検証までの一連の作業は、グラフィカルな画面設計により容易に実行できるため、ロジック検証の都度、人手を要していたコーディング作業が不要となる。

検証した前処理ロジックをETLツール（※4）に連携し、シームレスな前処理の実運用を支援

検討した前処理ロジックを、顧客任意のETLツールに連携する「前処理ロジックエクスポート」機能により、個別にロジックを実装することなく、さまざまな機器やシステムから発生するデータの前処理を効率的に定常運用（※5）へ移行することが可能だ。検証したロジックを直接ETLツールに連携できることから、データ理解から前処理ロジックの検証、実運用までをシームレスにつなぎ、顧客のデータ利活用を促進する。

同サービスにより、熟練者が有するプログラミングや統計などの高度なスキルやノウハウがなくても、効率的なデータの前処理を行うと共に、データをデータレイク（※6）に格納することができる。

前処理の作業負荷を軽減することで、本来時間と工数をかけるべき分析作業に集中することが可能となる他、さまざまなデータ分析をはじめ、AIに投入するデータや、IoTシステムへの入力データ、業務システムへの入力データの整備など様々な用途で、顧客のデータ利活用の促進とデジタルトランスフォーメーションを支援する。

※1　データ加工の一種。重複したデータの排除や関連付けを行う作業。
※2　データ加工の一種。欠損値の補完や異常値の排除を行う作業。
※3　統合やクレンジングといった処理を実際に実行するためのプログラム。処理の流れや手順を組み込んだもの。
※4　Extract Transform Loadの略。基幹系システムをはじめとするあらゆる業務データに対して、利用者側が作成した前処理ロジックをもとに、必要なデータを抽出・整形する作業を自動化するソフトウェア。同サービスでは、日立のデータ統合・分析基盤「Pentaho」のほか、顧客任意のETLツールを利用できる。
※5　新規追加・更新されるデータを含めたすべてのデータに対して、継続して同じ処理を行うこと。
※6　さまざまなデータソースからの大量データを多様な形式で一元的に格納するリポジトリ。構造化データ、半構造化データ、非構造化データを格納でき、将来の利活用のためにデータをより柔軟な形式に保持するもの。