株式会社モルフォAIソリューションズ(以下、モルフォAIS)は、日本語LLMの学習データを生成するための、AI-OCR(光学文字認識)出力サービスの提供を、2023年12月19日より開始する。
このサービスは、独自LLMの構築を検討している企業・官公庁・地方自治体などの組織や、LLM開発を進めるAI企業・研究機関向けに、日本語テキストデータを提供するものだ。
モルフォAISの提供するOCR出力サービスは、日本語文書の多様なレイアウト(縦書き、横書き、多段組等)や、約7000種類の文字種に対応し、文章の読み順まで含めたテキスト生成を行う。
また、JPEG、PDF、PNGなどの画像が含まれている雑多な文書を、テキストで出力することが可能だ。
なお、このサービスは、国立国会図書館をはじめとして、様々な機関向けにテキスト生成を実施済みとのことだ。
無料メルマガ会員に登録しませんか?
膨大な記事を効率よくチェック!
IoTに関する様々な情報を取材し、皆様にお届けいたします。