視覚言語事前学習(Vision-Language Pre-training; VLP)技術の多くは、英語中心の開発にされている。
そこで株式会社博報堂テクノロジーズは、日本語に特化した画像とテキストの理解を深めるための視覚言語事前学習モデルを開発し、Hugging Face上で非商用向けに無償公開したことを発表した。
今回開発された視覚言語事前学習モデルは、画像エンコーダの改良と訓練データ量の増加、言語エンコーダの能力強化を行うことで、日本語特化のVLPモデルを実現した。
これにより、画像検索、テキストからの画像生成、画像のタグ付け、画像に対する質問応答などの応用が可能だ。
例えば、「桜の花が満開の公園」など、具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すことが可能となった。
今後博報堂テクノロジーズは、今回のモデル公開を通じて、研究コミュニティやAI技術の開発者に対し、より高度な日本語の視覚言語理解の基盤を提供するとしている。
なお、開発されたVLPモデルの技術的詳細や応用例については、博報堂テクノロジーズの公式Hugging Faceページを通じて提供するとのことだ。
無料メルマガ会員に登録しませんか?
膨大な記事を効率よくチェック!

IoTに関する様々な情報を取材し、皆様にお届けいたします。