モルフォAIS、LLM向けの日本語データセット生成サービスを提供

株式会社モルフォAIソリューションズ(以下、モルフォAIS)は、日本語LLMの学習データを生成するための、AI-OCR(光学文字認識)出力サービスの提供を、2023年12月19日より開始する。

このサービスは、独自LLMの構築を検討している企業・官公庁・地方自治体などの組織や、LLM開発を進めるAI企業・研究機関向けに、日本語テキストデータを提供するものだ。

モルフォAISの提供するOCR出力サービスは、日本語文書の多様なレイアウト(縦書き、横書き、多段組等)や、約7000種類の文字種に対応し、文章の読み順まで含めたテキスト生成を行う。

また、JPEG、PDF、PNGなどの画像が含まれている雑多な文書を、テキストで出力することが可能だ。

サービスの概要図

なお、このサービスは、国立国会図書館をはじめとして、様々な機関向けにテキスト生成を実施済みとのことだ。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録
モバイルバージョンを終了