近年、ビッグデータやIoTシステムにおけるデータベースは、高速性や拡張性、信頼性が求められている。
東芝デジタルソリューションズ株式会社が開発したスケールアウト型データベース「GridDB」では、イベント駆動処理技術(※1)や自律データ再配置技術(ADDA)(※2)を開発し、これらの要件を満たすデータベースを提供してきた。
近年、IoTで扱われるデータやその活用方法が多様化しており、その結果、データモデルも多様化している。新たなデータモデルを扱う際、複数のデータベース管理システム(DBMS)を用意したり、あるいは無理やり単一のDBMSで対応したりしているのが現状だ。しかしそのような対応方法では、システムの煩雑化、構築・運用コストの上昇、リアルタイム性の損失などの問題が生じてしまう。
このほど東芝デジタルソリューションズは、GridDBの新バージョンとして、アーキテクチャを刷新した「GridDB 5.0 Enterprise Edition」(以下、GridDB 5 EE)の提供を開始した。
GridDB 5 EEではアーキテクチャを刷新し、単一のDBMSでありながら複数のデータモデルを扱うことを可能とした、プラガブルデータストアを実装した。これまでGridDBが提供してきた高頻度で大量なデータ登録に適したデータストアに加え、複雑な分析を高速に行うことができるデータストアや、ログなどの文章を蓄積することが得意なデータストアを組み込むことができる。
これまでのIoTシステムでは大量のセンサーデータを貯めて、可視化することで価値を提供してきた。しかし最近では貯めたデータを用いて複雑な分析を行い、新たな知見を得ようとする動きが出てきている。大量高頻度のデータを貯める機能と、複雑な分析を高速に行う機能は、DBMSとしては相反する要件になる。
これをプラガブルデータストア機能により、それぞれに適したデータストアを一つのDBMSの中に実現できるようになる。複数のDBMSを使用するのではなく、単一のDBMSで統合的に処理することが可能となり、複数のDBMSが混在することによるシステムの複雑化や、構築・運用コストの上昇などを避けることができる。
さらにGridDB 5.0 EEでは、独自の高効率チェックポイント(※3)アルゴリズム技術「HCAL(Highly efficient Checkpoint Algorithm for Large-scale data)」による新チェックポイント方式を導入し、チェックポイント時のファイルへのログ書き込み量を削減し、ディスクI/O負荷を低減させた。これにより頻繁にデータの追加・更新を行うシステムでは、システムの負荷が下がり、その結果、より多くのデータベース処理を実行できるようになる。
また、テーブルごとに固有のブロックを割り当てることで、テーブル単位のスキャンや削除を高速化できる機能を追加した。テーブルスキャン(※4)が多用されるデータ分析クエリなどで有効とのことだ。また削除予定のテーブルを指定しておけば、テーブル削除が高速になる。これらの性能改善を行うことで、データベースの性能比較するためのベンチマークテスト(TPC-H)(※5)で、17%~46%(平均26%)改善したという。
東芝デジタルソリューションズは今後、複雑な分析を高速に行うデータストアや、文章の蓄積が得意なデータストアを順次提供するとしている。
※1 イベント駆動処理技術:少ないリソースで⾮同期的なデータ処理を絶え間なく実⾏するとともにメモリ、ディスクアクセスの排他処理や同期待ちを極力排除しオーバヘッドを減らした技術。
※2 自律データ再配置技術(ADDA: Autonomous Data Distribution Algorithm):自律的にDBサーバ間でデータを再配置し、DBサーバの負荷を平衡にする技術。
※3 チェックポイント:データベース管理システム(DBMS)で、データベースへの変更をストレージ(外部記憶装置)上のファイルに書き込む処理。データベースの内容の変更はまずメインメモリ(RAM)上で行われ、ストレージへの反映は変更内容がある程度溜まってからまとめて行われる。
※4 テーブルスキャン:SQLで指定された表データにアクセスする際、検索条件を満たす行を1行ずつ探す方法。1行ずつチェックするので、時間がかかる。
※5 TPC-H:データベースシステムの検索処理性能に関する業界標準のベンチマークのひとつ。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。