サイトアイコン IoTNEWS

モルフォAIS、LLM向けの日本語データセット生成サービスを提供

モルフォAIS、LLM向けの日本語データセット生成サービスを提供

株式会社モルフォAIソリューションズ(以下、モルフォAIS)は、日本語LLMの学習データを生成するための、AI-OCR(光学文字認識)出力サービスの提供を、2023年12月19日より開始する。

このサービスは、独自LLMの構築を検討している企業・官公庁・地方自治体などの組織や、LLM開発を進めるAI企業・研究機関向けに、日本語テキストデータを提供するものだ。

モルフォAISの提供するOCR出力サービスは、日本語文書の多様なレイアウト(縦書き、横書き、多段組等)や、約7000種類の文字種に対応し、文章の読み順まで含めたテキスト生成を行う。

また、JPEG、PDF、PNGなどの画像が含まれている雑多な文書を、テキストで出力することが可能だ。

サービスの概要図

なお、このサービスは、国立国会図書館をはじめとして、様々な機関向けにテキスト生成を実施済みとのことだ。

モバイルバージョンを終了