富士通研究所、分散ストレージ上で大量データを高速処理する基盤技術を開発

株式会社富士通研究所は、増え続ける大量データの処理を高速に行うために、分散ストレージシステム上で大容量蓄積と高速データ処理を両立させる技術を開発した。

昨今、急速に大容量化が進んでいる映像やログデータといった非構造化データを含む大量のデータを、AIや機械学習などで分析して利活用するニーズのなかで、データを蓄積しているストレージシステム上で分析まで行うことでデータ処理速度を向上することが期待されている。しかし、一方で、分散して蓄積されている非構造化データの効率的な分析や、本来のデータ管理のためのストレージ機能とデータ処理との両立が必要である。

増え続ける大量データを高速に処理するために、複数のサーバをネットワークで接続しデータを分散して蓄積する分散ストレージシステムにおいて、本来のストレージ機能の性能を低下させることなくデータ処理を行う技術「Dataffinic computing(データフィニックコンピューティング)」が開発された。

同技術により、非構造化データを含む大量データの高速処理を可能とし、監視カメラ映像利活用、ICTシステムのログ分析、車のセンサーデータ利活用、ゲノムデータ分析といった増え続けるデータの効率的な利活用を実現するという。

「Dataffinic computing」の特長は以下の通り。

  1. 分散したデータごとに処理可能なコンテンツアウェアデータ配置
    分散ストレージシステムでは、アクセス性能を出すために、大容量データを同じ箇所に保存せず、ストレージシステムが管理しやすい容量ごとにデータを分割させて格納する。しかし、映像やログデータなどの非構造化データの場合は、決められた容量ごとに規則的に分割すると、それぞれに格納した各断片データだけでは不完全で処理できないため、分散されたデータを一度集めたうえで処理する必要があり、システム上の大きな負荷となっていた。

    今回、非構造化データを、データの関連性の切れ目で分割することで、断片データだけでも処理可能なデータとして蓄積。また、処理に必要となる情報(ヘッダ情報など)を、断片のデータごとに付与情報として持たせる。これにより、それぞれの分散ストレージ上で蓄積された断片データごとの処理が可能となり、アクセス性能のスケーラビリティを維持しつつ、システム全体のパフォーマンスを向上させるという。

    富士通研究所、分散ストレージ上で大量データを高速処理する基盤技術を開発
    非構造化データの格納・処理イメージ
  2. ストレージ機能とデータ処理を両立するアダプティブリソース制御
    ストレージノードでは、通常のデータ読み書きに加え、故障時の自動復旧処理や、容量追加時のデータ再配置処理、予防保守を目的としたディスクチェック処理といった、データを安全に保管するための様々なシステム負荷が発生している。それらのストレージシステム内部で発生するシステム負荷をモデル化して、近い将来に必要とするリソースを予測し、それを基にストレージ機能の性能を低下させないようにデータ処理の使用リソースと配備先を制御する。これにより、本来のストレージ機能の安定稼働を実現した上で、高速データ処理を可能にするという。
    富士通研究所、分散ストレージ上で大量データを高速処理する基盤技術を開発
    必要リソースの予測とデータ処理のためのリソース制御のイメージ

同技術をオープンソースソフトウェアの分散ストレージソフトウェア「Ceph(セフ)(※)」上に実装して効果の検証が行われた。5台のストレージノードと5台の処理サーバとの間を1Gbpsのネットワークで接続して、50GBの映像データの中に含まれる人や車などのオブジェクトを抽出するデータ処理性能を測定。従来方式では処理が完了するまでに500秒要していたが、同技術を用いることで、従来比10倍の速度となる50秒での処理が完了することが確認された。

同技術により、増え続けるデータに対してスケーラブルなデータ処理を可能とし、爆発的に増大するデータの効率的な利活用への適用が期待できるという。

今後富士通研究所では、同技術の業務適用を想定した検証を進め、2019年度中に富士通株式会社での製品化を予定している。

提供:富士通

※Ceph:2004年以前にカリフォルニア大学で開発が開始されたCephコミュニティーが管理しているオープンソースソフトウェアの分散ストレージソフトウェア。

IoT/AIのトレンドや事例をお調べですか?
IoTNEWSでは、IoT/AIのトレンドレポートを毎月作成、法人会員限定で配布しています。 また、毎月有識者による様々なテーマでの勉強会を実施しております。
詳細はこちら
Previous

DNPとNEC、顔認証技術を活用した生体認証サービスで協業

ユニメディア、Deep Learningモデル構築を実現する学習データ作成用アノテーションサービスを提供開始

Next