宮崎大学・NTTデータ・ファイザー、複数医療機関の電子カルテデータに適用可能な薬物治療効果判定AIモデルを構築

電子カルテデータは、薬剤の治療効果や安全性などの臨床アウトカム取得の可能性があるものとして、活用が期待されている。一方で、臨床アウトカムに関わる多くのデータは、経過記録や画像検査レポート等のテキストに含まれており、これらの非構造化データを構造化しなければ解析は困難である。

このような課題から、国立大学法人宮崎大学、株式会社NTTデータおよびファイザー株式会社は、非構造化データを用いた臨床アウトカムの評価手法の確立に向けて、2020年から共同研究を進めてきた。その研究では、宮崎大学の電子カルテデータを用いて、肺がん患者さんを対象に薬物治療効果等のアウトカムを医師が評価した。そして、その結果を自然言語処理したところ、治療効果の評価において、文章の肯定形・否定形や、文脈の情報が重要であることが判明した。

このほど3者は、複数医療機関の電子カルテデータに適用可能な、肺がん患者の薬物治療効果を判定するAIモデルを構築した。

同モデルは、電子カルテの非構造化データを自然言語処理し、薬物治療効果を抽出するものである。今回の研究では、文脈情報が考慮可能な大規模言語モデルBERT（※1）を用いて薬物治療効果を判定するモデルを構築し、対象を単独医療機関から6つの医療機関に広げ、次世代医療基盤法に基づく認定匿名加工医療情報作成事業者である、一般社団法人ライフデータイニシアティブ（以下、LDI）が保有する多施設電子カルテデータベースに適用させることで、迅速かつ大規模データに基づくリアルワールドエビデンス（※2）の創出を目指した。

具体的には、まず宮崎大学医学部附属病院に通院または入院した肺がん患者31例の電子カルテデータを対象に医師が評価した学習データを作成し、BERTを用いた薬物治療効果判定モデルの構築手法を検討する。ドメイン特化BERT構築フレームワーク（※3）を適用して事前学習を行い、がん治療ドメインに特化したモデルを構築したうえでファインチューニングを行う。

上記で構築したモデルについて、次世代医療基盤法に基づき得られた6つの医療機関の肺がん患者713例の電子カルテデータに対して適用し、複数医療機関の電子カルテデータへの適用可能性を検証する。抽出した薬物治療効果から、臨床研究で用いられる評価項目である疾患進行までの時間（Time-to-Progression disease、以下、TTP）を治療ラインごとに評価する。人が抽出した結果とモデルが推定した結果を比較評価し、同手法の実用性を確認する。

同研究の結果、ドメイン特化BERT構築フレームワークを適用して事前学習を行い、がん治療ドメインに特化したモデルを構築した。さらに宮崎大学の電子カルテデータでファインチューニングすることで薬物治療効果判定モデルを構築し、精度検証した（感度 0.63、陽性的中率 0.42、F1スコア 0.50）。

また、上記で構築したモデルを複数医療機関の電子カルテデータに対して適用した。顕著な精度の低下はみられなかった（感度 0.54、陽性的中率 0.40、F1スコア 0.45）。さらに、モデルで推定した薬物治療効果と薬物処方等の構造化データを組み合わせて、TTPを治療ラインごとに推定した。人が抽出した結果とモデルが推定した結果を比較評価したところ、同様の傾向を示した。

これらの結果から、構築した薬物治療効果判定モデルは複数医療機関の電子カルテデータに適用可能であり、また臨床研究で用いられる評価項目を評価可能であると確認した。今後、学習データ量を増やす等により、さらなる精度向上が見込まれる。

今回の研究により、複数医療機関の電子カルテデータに適用可能な薬物治療効果判定AIモデルを構築できることを確認した。今後、治療効果の薬剤間の比較や肺がん以外の疾患の薬物治療効果判定等に、非構造化データの活用が広がる可能性が見込まれる。多施設の大規模電子カルテデータベースから医療に関する臨床アウトカムの情報を効率的に収集して活用することができれば、さらなる個別化医療の進展や、適切な医薬品への早期のアクセス等、さまざまなベネフィットが期待される。

同研究における各者の役割は以下の通り。

宮崎大学

研究計画の立案
宮崎大学医学部附属病院に蓄積されたデータのうち、研究対象者として選択基準を満たす患者さんについて匿名化された電子カルテデータを提供
医療および医療情報学分野の専門家としての評価および助言

ファイザー

研究計画の立案
研究に利用するデータの特定
データ解析結果の評価

NTTデータ

研究計画の立案
LDIの次世代医療基盤法に基づくリアルワールドデータから、研究対象者として選択基準を満たす患者さんについての電子カルテデータの抽出
宮崎大学から受領した匿名化された電子カルテデータ、LDIの電子カルテデータの解析

※1　BERT（Bidirectional Encoder Representations from Transformers）：2018年10月にGoogleが発表した自然言語処理モデルである。自然言語処理分野のさまざまなベンチマークにおいて従来モデルの精度を上回る等、近年非常に注目されている。
※2　リアルワールドデータ：医療現場での診療行為から得られる医療情報の総称。リアルワールドエビデンスは、リアルワールドデータの解析から得られたエビデンス。
※3　ドメイン特化BERT構築フレームワーク：NTTデータが開発した、ドメイン特化BERTを自動で構築する仕組みである。ドメイン特化BERTは、業務領域（ドメイン）特有な用語や言い回しを含む文書に対して、類似表現を含む文書を大量に用意してBERTに追加学習を施すことで、専門性の高い文書でも高い精度を出せるようにしたもの。