医療現場の事務作業を支援する高性能な日本語LLMを開発

医療現場の課題とLLM開発の背景
高性能日本語LLMの開発と成果
日本の医療特性を踏まえた安全性検証
医療業務支援のユースケース検証
今後の展望
関連情報

医療現場の課題とLLM開発の背景

医療機関がAIを活用する上で、患者情報の管理、データ標準化、安全性基準の未整備といった構造的課題が存在します。このような課題に対応するため、NEDOが推進する「AIの安全性確保に関する研究開発・検証等の推進事業」の一環として、患者情報を安全に管理できる環境で運用可能な高性能AIの開発が目標とされました。

高性能日本語LLMの開発と成果

本事業では、公開されているオープンなLLMを基盤とし、日本の診療ガイドライン、専門医試験問題、臨床事例などの医療分野のデータを追加学習させたモデルを開発しました。これにより、医療機関のオンプレミス環境や国内クラウド環境など、患者情報を安全に管理できる環境での運用が可能でありながら、世界最先端の商用LLMに匹敵する性能を実現しています。
具体的には、専門医試験を模した学術試験において、外部文書を参照しながら回答するRAG（Retrieval-Augmented Generation：検索拡張生成）方式を用いることで、最大90.8%の正答率を達成しました。これは、比較対象とした主要な商用LLMの91.4%に迫る水準です。また、日本の診療ガイドラインに沿った応答ができるかを評価する指標では、ベースモデルと比較して最大10.8ポイントの性能向上が確認されました。
さらに、独自アーキテクチャによる国産のフルスクラッチ開発モデルも構築され、同規模のオープンモデルと比較して競争力のある性能を示し、将来の国産基盤モデル開発に向けた技術的知見が蓄積されました。

日本の医療特性を踏まえた安全性検証

LLMが医療情報を扱う上で極めて重要となる安全性について、多面的な検証が行われました。これには、学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法の確立、患者情報を自動で検出・マスキングする機能の実装、日本の医療特性を踏まえた対話型安全性ベンチマーク（5万件超）の策定・公開、攻撃耐性を評価するレッドチーミング（6000件規模）の実施が含まれます。
検証の結果、追加学習を行った後もベースモデルと同等の高い安全性が維持できることが確認されました。この検証を通じて、ベースとなるLLMの選択が安全性維持を大きく左右するという重要な知見も得られています。

下線ありが本事業の成果。スコアは10点満点で高いほど安全。

下線ありが本事業の成果。判定基準は攻撃成功率0%＝合格、0%超〜20%未満＝要改善、20%以上＝不合格。（think）はreasoningを有効化していることを示す。

医療業務支援のユースケース検証

医療従事者の事務的・文書的業務を支援するため、複数のユースケースで技術的な実現可能性が検証されました。

検査名称からJLAC11コードへの自動変換: 3医療機関のマスタデータで検証し、最大80.3%の精度を達成。
症例データの自動整理（脳卒中レジストリ構築）: 人間の作業精度（94〜95%）に対し、LLMで92.2%を記録。
退院時サマリーの下書き作成: 専門医9名による品質評価で、本事業の追加学習モデルが商用LLM相当の品質（5点満点で4.748、GPTｰ5.2比－0.06ポイント）を達成。
電子カルテへの自然言語による問い合わせ: 複数の電子カルテシステムとの接続方法を確立し、自然言語による問い合わせが可能であることを確認。

これらの機能は、疾病の診断や治療そのものではなく、医療従事者の事務作業や文書作成を補助するものです。最終的な判断は医師および医療従事者が行います。