IoTの普及により増え続けるビッグデータとは

「データ駆動型社会」が到来し、データは「21世紀の石油」である、と言われている。

そして、企業は「急増するデータを上手に活かすことで、自社ビジネスを成長させることができる」と期待している。

では、そもそもデータは今どのくらい流通していて、この先はどうなるのだろうか。

ネット機器関連大手のシスコシステムズの「2017～2022年ホワイトペーパー」によれば2017年から2022年の5年の間で通信量は3倍になるとされ、全世界の通信量は2017年は1.5ZB、2022年は4.8ZBになると予測されている。※ちなみに1ZB（ゼタバイト）は1兆GB（ギガバイト）

単位が大きすぎるので、1人あたりの通信量になおすと、2017年は16GB（1ヶ月）だった通信量が、2022年は50GB（1ヶ月）の通信量になる予測だ。

なぜ通信量が増加するかというと、ネットワークに接続されるデバイスが増加するからで、2017年は180億台、2022年は286億台になるようだ。

では、2022年にネットワークに接続されているデバイスの種類で一番多いのはなんだろうか。

まず思い浮かぶのはスマートフォンだが、実は接続デバイスの半数以上を占めるのはIoTデバイスと予測されている。そのつぎにスマートフォン、そしてPCが続く。

翻って、2010年頃から「ビッグデータ」という言葉が頻繁に使われるようになり、企業はこのような膨大なデータを活かして、ビジネスに新たな価値を創出すべきといったことが言われ続けてきた。

2010年から9年が経過し、IoTの本格的な普及がはじまっている現在、わたしたちはビッグデータはどのように活用されているのだろうか。

そもそもビッグデータとは何か、というところから改めて整理する。

ビッグデータの定義

「平成29年版情報通信白書」によると、ビッグデータは「スマートフォン等を通じた位置情報や行動履歴、インターネットやテレビでの視聴・消費行動等に関する情報、また小型化したセンサー等から得られる膨大なデータ」だという。

さらに、同白書はビッグデータをデータを生成する主体別かつ性質別に4つに分類した。

オープンデータ　主体:政府

政府や地方公共団体が保有する公共情報をいう。

ノウハウをデジタル化・構造化したデータ　主体:企業

企業が持つ、蓄積されたノウハウをデジタル化した情報をいう。

M2Mから吐き出されるストリーミングデータ　主体:企業

IoTを実現するためのセンサーが収集する情報をいう。

個人の属性に係るパーソナルデータ　主体:個人

個人の属性情報、移動、購買履歴、ウェアラブル機器から収集された個人情報をいう。

ビッグデータを「大量のデータ」と解釈してよいか？

ビッグデータは言葉の通り大量のデータという意味を含んでいる。ただし、それだけだとビッグデータの性質をすべて表したことにはならない。

では、ビッグデータの性質とはなにか。

ビッグデータの構成要素といわれる3つの要素を紹介する。

Volume（膨大なデータ）

スマートフォンやタブレットといったデバイスが登場し、SNSなどのソーシャル・メディアやIoTサービスの普及したことによって、通信量が飛躍的に増加した。冒頭に記載したとおり、今後も増え続ける見通しだ。

Variety（非構造化データ）

Varietyを訳すと「多様性」となるが、あえて括弧書きで非構造化データとしたのには意味がある。ビッグデータは、POSデータやECサイトにおける購買データといった分類しやすく、体系化しやすいデータだけを取り扱うのではないということだ。

重要なのは、テキストデータ、センシングされたデータ、音声、動画など、簡単に分類できず、体系化も難しい非構造化データもビッグデータの射程内にあるということだ。むしろ、ビッグデータのうち8割はこの非構造化データであると言われている。

Velocity（高頻度）

データが生成される頻度を意味する。少し古いデータになるが、2015年にアメリカのスタートアップDomoが発表した資料によると、全世界のYouTubeユーザーのアップロードする動画の時間の総計は1分あたり300時間だという。また、全世界のTwitterユーザーが1分あたりにツイートする数は35万件だという。このようにデータが生成され、蓄積される頻度が非常に高くなっている。

ビッグデータを膨大なデータというだけでは、その性質を説明しきれないということを先に述べたが、これまでの情報を整理してみると、ビッグデータは「高頻度に生成・蓄積される非構造データを主とした大量のデータ」と言えるのではないだろうか。