株式会社リンクバルは、同社が運営する「machicon JAPAN(街コンジャパン)」にて、多くのイベントの掲載をしている。
イベントは、開催されると在庫が0になり、2度と入荷されないという特殊性を持っている。つまり、同じ内容で場所や日時を変えてイベントを開催する場合、新しい商品としてデータベースに登録される。
こうした「同じ形式」のイベントをデータ上で捉えられない状況は、マーケティングの分析や、商品のレコメンドを行うにあたり困難を引き起こしていた。
実際に、例えばECサイトにおいて、「このアイテムを購入した人はこんなアイテムも購入しています」のように、他のユーザの購買履歴を参考にすることで、別のアイテムをレコメンドする仕組みは浸透している。
しかし、「同じ形式」のイベントがデータ上で把握できないと、履歴を参考にした学習がうまく機能せず、適切なレコメンドの仕組みを構築することが困難であった。
そうした中、リンクバルは、「形態素解析」をはじめとする、自然言語処理と集合論の考えを応用したAI技術の独自開発により、イベントを説明する種々のテキストデータから「同じ形式」と思われるイベント同士を名寄せするロジックを開発した。
今回開発されたイベントの名寄せロジックでは、単語を集合として比較するという方針のもと、計算コストを削減するために、トピックモデルのアプローチを採用し、曖昧な条件を定式化している。
一般的に、イベント情報において、「テキストから開催時間と開催場所に関する単語を排除した上で一致していれば名寄せする」とすることで、シンプルかつ適切に名寄せが可能であると考えられる。

特定の単語を排除するためには、まず文章を単語の粒度に分割し、各単語がどのような意味を持つか、品詞や単語の意味の情報を付与する必要がある。
このような処理は、一般に「形態素解析」と呼ばれ、今回のロジックでは「形態素解析」と単語の意味推定によって、地名や時間に関する名詞といったイベントの形式に本質的でない単語の抽出を実施している。
しかし、「形態素解析」における意味推定の精度には限界があり、それだけで所望の単語を完璧に排除しきることはできない。
つまり、最初に述べた「テキストから開催時間と開催場所に関する単語を排除した上で一致していれば名寄せする」という条件を十分な精度で実現することが困難となる。
一般的に、「名寄せ」という課題の難しさは、単純に「一定の正規化や形態素解析を始めとする自然言語処理を施した上で一致するか否かを比較する」というだけでは不十分な場合に生じることが多く、今回もこのパターンに該当する。
この困難に対処するためには、(前処理した)テキストデータが完全に一致するのではなく、わずかなズレを許容した上で一致すれば名寄せするという曖昧な条件をうまく定量的に表現することが重要だ。
そこで、データの完全一致からわずかなズレを許容して名寄せするという、曖昧な条件に移行したが、ここで新たな問題が生じる。
具体的には、名寄せされるべきイベントの集まりに対して、一貫性のあるインデックスの付与が困難になるということだ。
この問題は、数学的には同値関係と呼ばれる二項関係の構成と関係しており、開発された名寄せロジックでは、集合論の知見を活用することで、この問題を克服している。
今回、独自に開発された名寄せ技術によって、同じ商品の異なるバリエーションや関連商品を適切な粒度にまとめて表示することが可能となった。
例えば、レコメンド表示枠の有効活用によって、顧客により多くの選択肢を提供することができる。

リンクバルは、今回の名寄せの取り組みにより、イベントに適切な粒度でインデックスを付与することができるようになった。
今後は、顧客のニーズを捉えたイベント商品のレコメンドエンジンの開発に取り組んでいくとしている。
また、名寄せ結果をデジタルマーケティングの分析に活用し、よりきめの細かいサービス改善を実施していく予定だ。
さらに、子会社「株式会社MiDATA(マイデータ)」を設立し、AIソリューション開発のサービスを提供する。データの名寄せを含む、ソリューション開発のサービス提供を推進するとのことだ。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。