東芝と統数研、欠損値の多いデータからでも不具合の要因を特定する機械学習アルゴリズムを開発

工場・プラントなどの製造現場では、製造物の品質値や加工条件、設備の温度や圧力などの製造プロセスや設備稼働に関するデータが日々大量に収集・蓄積されている。これらのデータを活用して品質のばらつきを説明する回帰モデル（※1）を構築することができれば、品質や歩留が悪化する要因の特定と改善に寄与することができる。

しかし、実際に収集されるデータには測定ミスや通信エラーによる欠損が発生するだけではなく、抜き取り検査によって品質を確認することが多いため、1割程度しかデータを収集できない場合もある。このような場合、予め欠損値を計算・補完してから解析するのが一般的だが、欠損値が多いと膨大な計算が必要となり、要因解析の高速化・高精度化は困難だった。

そこで、株式会社東芝と大学共同利用機関法人情報・システム研究機構統計数理研究所（以下、統数研）は、欠損値の多いデータからでも高精度な回帰モデルを構築可能な新しい機械学習アルゴリズム「HMLasso」を共同開発した。同技術の特徴は以下の通り。

欠損率が高い場合でも高精度に回帰モデルを構築
最先端のアルゴリズム「CoCoLasso」は欠損率の高低を考慮しない設計のため、欠損率が高い項目に引きずられて全体の精度が下がってしまう。一方、「HMLasso」は欠損率の高低に応じて柔軟に計算する設計のため、欠損率が高い項目があっても全体の計算精度が低下せず、高精度な回帰モデルの構築ができる。
欠損値の補完プロセスを省略
欠損値を含むデータから直接、回帰モデルを構築することを可能とし、全体の計算時間を短縮する。
重要項目の自動絞り込み
データ項目が多い場合でも分析を実現するスパースモデリング技術（※2）の応用により、多くのデータ項目から品質や歩留への影響度の高い重要な項目だけを絞り込む。

同技術の有効性は、理論と実験の両面から検証が完了している。理論解析では、欠損率を活用することで誤差限界が最適になり、従来のアルゴリズムよりも優れていることが検証された。数値実験では、平均欠損率50％でデータ項目によっては欠損率が90％以上となる人工データでベンチマークし、「CoCoLasso」と比べて推定誤差を約41％削減することに成功した。

同技術により、これまで活用の難しかった欠損値を多く含むデータでも高速・高精度な要因解析が可能となり、工場・プラントなど製造現場の生産性・歩留・信頼性の向上に貢献する。

※1 特定のデータ項目の値を他のデータ項目から説明するモデル
※2 変数選択とモデル化を同時に行う方法論