IoT NEWS

朝日新聞社、長文を圧縮し要約する「長文要約生成API」を公開

株式会社朝日新聞社では、自動で見出しや要約を生成する「自動要約生成API TSUNA」をリリースしている。

このほど、自然言語処理研究の成果の一つである「長文要約生成」の機能を無償で利用できるAPIを公開した。

同APIは、TSUNAで培ってきた技術をもとに文章を圧縮する技術を開発し、長い文章を入力すると要約された文章を返すことができる。過去30年分の朝日新聞記事のデータおよび、記事を生み出すフローで生み出される内部データを活用し、学習データとしての処理効率を上げるためのフィルタリングなどをした上で、ディープラーニング(深層学習)により可能となった。

具体的な同APIの機能は以下の通り。

  • 入力された文章を、指定した長さごとに区切ってTSUNAにより要約する
  • 文ごとの長さが揃うように圧縮する
  • 文ごとに指定した割合まで圧縮する
  • 重要な文を抽出する
  • 抽出した重要文を圧縮し、文書全体を指定した長さにする

これらの機能を単独で使用、あるいは連結して組み合わせることで、長文の内容を把握しやすく要約することができる。Web上の文章やビジネス文章、議事録、エントリーシートの内容など、素早く内容を判別したい、速読したいといった用途に活用できる。また、TSUNAと組み合わせることで、大量の文章に自動で見出しと要約を付与し、一覧にすることも可能だ。

ここまでの文章をTSUNAで見出し生成、同APIで要約し、3分の1の長さにした例は以下の通り。なお、全ての文を7割程度圧縮し、段落を自動で付与している。

「自然言語処理研究の成果「長文要約生成」のAPIを公開
自然言語処理研究の成果の一つである「長文要約生成」の機能を体験できるAPIを公開しました。要約された文章を返します。
用途に応じた文章を生成。ディープラーニング(深層学習)により可能となった技術です。自動で見出しや要約を生成する。文章を圧縮する技術を開発。APIを公開しました。
5つの機能を提供。TSUNAにより要約する。圧縮する。割合まで圧縮する。重要な文を抽出。文書全体を指定した長さにする。長文の内容を把握しやすく要約することが可能。素早く内容を判別したいといった用途にご活用できます。一覧にすることも可能です。」