長文も画像も遺伝子も得意、努力家で謙虚な大型新人?! Googleの医療特化型生成AI “Med-Gemini”の概要
Googleが、同社の扱う最新のAIモデル“Gemini”をもとに、
医療に特化した大規模言語モデル・マルチモーダルモデルの“Med-Gemini”の概要を論文として発表しました。
https://arxiv.org/html/2404.18416v2#A3.SS2
ここでは、
このMed-Geminiの発表の概要を紹介し、
とそこから見えてくることについて考察したいと思います。
少々長くなりますが、ご覧いただければ幸いです。
【前提と経緯:Bard、PaLM、Gemini】
2022年11年、
OpenAI社によるChatGPTの発表によって、
生成AI世界に広く知られるようになりました。
Googleも、これより以前にいくつかの生成AIを開発していましたが、
ChatGPTの発表を受け、2023年5月に言語AIサービスのBard(バード)を発表。
このBardには同社のLLMモデルである“PaLM(パーム)”が使用されていました。
※このBardとPaLMの関係がややこしいですが、
「PaLMは製品名、Bardはサービス名」
と理解いただくと、分かりやすいかと思います。
さらにグーグルは、
このAIモデルPaLMの医療特化バージョンとして、
“Med-PaLM”を過去に発表していました。
そして、2023年末、
GoogleはPaLMおよびBardに代わる新しい世代の生成AIとして“Gemini(ジェミニ)”を発表。
ちなみにここでは、製品名もサービス名もGeminiに統一しています。
そして、2024年4月末、
Googleは“Med-PaLM”に続く最新型の医療特化生成AIとして、
“Med-Gemini”を発表した、というわけです。
【「Med-Gemini」のヤバさ】
ChatGPT-4が米国の医師国家試験で割と優秀な成績を収めていることなどが知られていますから、
「医療に特化した」
「Googleによる」
「最新型の生成AI」の成績たるや、
さぞ素晴らしいものであろうということは、想像に難くありません。
Med-Geminiが、
多くの指標でこれまでのAIで最高の記録
(State-of-the-art: SOTA)を記録したことも、
もちろん、論文では紹介されていますが、
特筆すべきは
1.“Advanced reasoning”
2.マルチモーダルにすごい
3.「藁の山の中に落ちた針を探せる」
の3点であると思われます。
順に説明します。
1.Advanced reasoning
「高度な推論」とでも和訳するのが適当かと思います。
これまでの大規模言語モデルでは、
事前に学習した大量のデータを引っ提げて、
与えられた課題に対して解答を導く、
という方法がとられていましたが、
このMed-Geminiはちょっと違うようです。
そもそも医者は、それぞれの患者に向かうとき、
患者から得た最初の情報と自分の医学知識を組み合わせて、症例の全体像を想定します。
この全体像をもとに、
診断や治療計画を立てるために必要な追加情報を段階的に集めていく。
そしてこの過程で、
医者は患者の症状、検査結果や以前の治療反応など、さまざまな情報を考慮に入れ、
さらには症状の変化や時間とともに変わる検査値、健康状態を監視するために収集されるデータなどなども検討対象になります。
こういった問題には、
事前学習で用意した知識では
太刀打ちできないことは想像に難くありません。
また、医学情報は常に更新されており、
研究の進展によって情報量が急速に増加しています。
最新の情報を反映させ、LLMの性能をさらに向上するには、
強力な推論能力だけでなく、信頼できる情報源から最新情報を統合する能力が求められます。
Med-Geminiでは、ウェブ検索を通じて得られた情報を推論プロセスに統合する方法が採用されました。
具体的には、複数の推論パスを生成し、
その推論バスの中に生じた「あいまいな部分」を特定して関連するウェブ検索を行い、
得られた情報を推論に活用します。
これにより、推論の正確性が向上するわけです。
この推論が本領を発揮する例として
CPC
が挙げられていました。
Clinical Pathological Conferenceの略で、非常に難解な病気のケースについて、いろいろな立場の医師が集まって振り返りを行う場です。
初期の段階だけではなくその後の経過、治療介入に対する患者の反応などなどを考慮に入れて解決法を探るということが必要になりますので、
前もって準備された知能や推論方式だけでは太刀打ちが難しいことは想像に難くありませんが、
Med-Geminiでは、これまでに述べた「高度な推論」によって、
CPCケースのような、
実際に医療現場で起きる極めて解決の難しい症例にも対処する能力を、格段に向上させることになりました。
2.マルチモーダルにすごい
Geminiは言語だけでなく、
画像や動画といった、多彩な情報をあつかう、いわゆる「マルチモーダル」なAIと表現されます。
これはMed-Geminiにおいても当てはまるようで、
テキストベースの選択問題だけではなく、
心電図、放射線科画像、病理画像の診断
などにおいても高い性能を示しました。
また遺伝学的研究にも優れた成績を示したようです。
3.「藁の山の中に落ちた針を探せる」
経過の長い患者さんの診療情報は時に膨大になり、
その中から必要な情報を採取して、その患者さんの病歴要約を作成する、
といったタスクは、まさに
「山のように積まれた藁から一本の針を見つけ出すような仕事」
と言えるでしょう。
Med-Geminiは一度に対処できる情報が大量であり、
これによって
病歴サマリーや数時間にわたる手術動画のまとめを高い精度で作ることができる、
とのことです。
【それでも、慎重なGoogle先生】
このようにすさまじい能力の高さと幅を見せつけてくれたMed-Geminiですが、
Googleは今後の展開について慎重な姿勢を示しています。
論文では
「Med-Geminiが有望な能力を示していることが判明したが、医療分野での広範な展開の前に慎重な検討と厳格な検証が必要である」
と述べられています。
これは、
技術的には高い成熟度にあるものの、安全性や生命倫理、法制的な点で導入の難しい
“自動運転”が置かれている状況、
と類似するのかもしれません。
しかしながら
Advanced reasoningによる不確実性の高い問題への解決力の向上、
マルチモーダルタスクの解決、
大量の言語、画像情報の処理など、
複数の困難を可能にした今回の“Med-Gemini”の成績は、
実臨床で利用可能な多能的AIの実現にむけて
大きな一歩となったことも確かでしょう。