2分で読める「生成AIのいま」 Vol.4—DeepSeekショックに見る、生成AIの”蒸留とは?”—
DeepSeekがChatGPTの技術盗用を行った、という疑惑が浮上していますが、これには生成AIの”蒸留”という技術がかかわっていそうです。
簡単に解説してみました。例によって医療田さん(女性医師)と機械屋さん(男性エンジニア)に登場いただきます。
~~~~
医療田さん「機械屋さん、ちょっと教えてほしいんですけど…」
機械屋さん「なんでしょう?」
医療田さん「AIの“蒸留”っていう技術を、私にも分かるように教えてもらえますか?」
機械屋さん「いいですよ!
ウイスキーって、ビールのような発酵液を加熱して、濃縮して作るって知ってましたか?」
医療田さん「あ、そうなんですか?」
機械屋さん「そうなんです。
この工程は”蒸溜”といって、”留”にさんずいがつきますけど。
生成AIの”蒸留”も同じように、大きなAIモデル(教師モデル)が持つ知識を小さいAIモデル(生徒モデル)に“濃縮して移す”方法なんです。」
医療田さん「なるほど、大きいモデルの知識を小さいモデルにギュッと詰める感じですね。
それをDeepseekがChatGPTからやってるとか…?」
機械屋さん「そこはさらに調査が必要でしょうね。
でも、もしDeepseekがChatGPTの出力を大量に集めて、自社のモデルに学習させていた場合、“ChatGPTもどき”を作った可能性があります。そうだとすると
『OpenAIが、”リアルデータ”という麦を発酵してさせて作ったChatGPTというビールを、煮詰めて作ったウイスキーがDeepSeek』
ということができるかもしれませんね。
もっとも、これはChatGPTを作ったOpenAIの利用規約に違反することになりそうです。」
医療田さん「なるほど。。
”蒸留”技術は今後の生成AIの開発に、どういう影響があるんでしょうか?何かいい影響もあるといいですけど。」
機械屋さん「そうですね。
ちゃんとしたルールの下で行われれば、ですが、小型化したモデルを安く早く動かせるので、中小企業でもAIを作りやすくなるかもしれません。
一方で、GoogleやOpenAIみたいな大規模研究をしている会社がすぐに不利になるわけではありません。蒸留は“知識を小さくまとめる”だけで、抜本的に新しい技術というわけではないですからね。
AGI(人間レベルの知能)やASI(超知能)といったような、AIの能力自体を押し上げる話題ではなさそうです。」
医療田さん「そうなんですね。じゃあ、使いやすさへの影響はどうですか?」
機械屋さん「蒸留をつうじて小さいモデルを動かせるようになれば、スマホなどの小さな端末(”エッジ”と呼ばれる)でもAIが動かせるようになるかもしれませんね。AIエージェントも、軽いモデルならロボットや色々な機器で使いやすくなるでしょうね。
ここまでの話をまとめると、
”蒸留”は生成AIを“ウイスキーのように濃縮”する技術で、大規模AIの知識をコンパクトにまとめる手法です。”蒸留”によって小型で安価なAIモデルが広まりやすくなります。ただ、大規模研究を先行する企業の優位性をすぐに覆すほどではないでしょう。今後は、大規模モデルと蒸留された小型モデルが共存して、いろんな分野にAIが広がっていくと考えられますね。」