サイトアイコン IoTNEWS

東芝と統数研、欠損値の多いデータからでも不具合の要因を特定する機械学習アルゴリズムを開発

東芝と統数研、欠損値の多いデータからでも不具合の要因を特定する機械学習アルゴリズムを開発

工場・プラントなどの製造現場では、製造物の品質値や加工条件、設備の温度や圧力などの製造プロセスや設備稼働に関するデータが日々大量に収集・蓄積されている。これらのデータを活用して品質のばらつきを説明する回帰モデル(※1)を構築することができれば、品質や歩留が悪化する要因の特定と改善に寄与することができる。

しかし、実際に収集されるデータには測定ミスや通信エラーによる欠損が発生するだけではなく、抜き取り検査によって品質を確認することが多いため、1割程度しかデータを収集できない場合もある。このような場合、予め欠損値を計算・補完してから解析するのが一般的だが、欠損値が多いと膨大な計算が必要となり、要因解析の高速化・高精度化は困難だった。

そこで、株式会社東芝と大学共同利用機関法人 情報・システム研究機構 統計数理研究所(以下、統数研)は、欠損値の多いデータからでも高精度な回帰モデルを構築可能な新しい機械学習アルゴリズム「HMLasso」を共同開発した。同技術の特徴は以下の通り。

同技術の有効性は、理論と実験の両面から検証が完了している。理論解析では、欠損率を活用することで誤差限界が最適になり、従来のアルゴリズムよりも優れていることが検証された。数値実験では、平均欠損率50%でデータ項目によっては欠損率が90%以上となる人工データでベンチマークし、「CoCoLasso」と比べて推定誤差を約41%削減することに成功した。

同技術により、これまで活用の難しかった欠損値を多く含むデータでも高速・高精度な要因解析が可能となり、工場・プラントなど製造現場の生産性・歩留・信頼性の向上に貢献する。

※1 特定のデータ項目の値を他のデータ項目から説明するモデル
※2 変数選択とモデル化を同時に行う方法論

モバイルバージョンを終了