OpenAIの「GPT-4」他、大規模言語モデルが公開されたことを受け、コンテンツを生成することが可能な生成AI(Generative AI)技術が急速に発展している。併せて、Stability AIの「Stable Diffusion」を代表として画像に関する生成AIも登場し、活用の可能性が期待されると同時に、AI倫理の観点から被写体からAI開発への利用承諾を得ていることがAIに使用するデータとしての利用条件となるケースが増えている。
上述を背景として、既存のデータセットの権利の透明性を見直す動きが大手企業を中心として進んでいるが、AI開発に必要となる多量のデータを権利クリアに収集することは容易ではない。
FastLabel株式会社では、AI倫理を遵守しながら、AI開発の高速化も実現できる短納期でのデータ提供を可能とするため、データセット事業を展開している。
このほどFastLabelは、オールインワンAIデータプラットフォーム「FastLabel」上から、AI機械学習用途の100万点以上の「権利クリア」な学習データの購入、管理が可能になったと発表した。
同社が販売するデータセットは、データ取得およびAI開発への利用に関する同意書を「すべての被写体」から取得しており、AI開発を行っている企業の要望に沿って収集したデータであるため、実際のAI開発に活用しやすい撮影要件となっている。利用用途に合わせたトリミング処理や印象分類、アノテーション等のオプションも提案可能だ。
データセットの具体例は以下の通り。
- 画像(人物撮り下ろし、帳票データ収集 他)
- 動画(スポーツ動画撮影、走行車両撮影 他)
- 音声(スクリプト発話、ノイズ収音 他)
- テキスト(会話コーパス 他)LLM開発用途含む
活用例:人流解析AI開発、顔認証AI開発、AI OCR開発など
活用例:姿勢推定AI開発、自動運転開発など
活用例:感情音声分析、AIボイスチェンジャー開発など
活用例:LLM開発、chatGPTファインチューニング
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。