~いまのAIの勢いはどこから? ディープラーニングからChaTGPTまでのカンタンな解説~
最近のAI発展の経緯と、そこからChatGPTの登場までをまとめてみました。
だいぶわかりやすくまとめたつもりですが、、どうでしょうか?
実際に講演させていただく際などには、さらにわかりやすく解説できると思います^^。
●第3次AIブームとディープラーニングの発展
第3次AIブームは主にディープラーニングの登場が寄与しています。
ディープラーニングの登場により、これまで達成できなかった精度での分析が可能になりました。
●ディープラーニングの「深さ」
ディープラーニングの「Deep」、つまり「深い」という部分が重要です。
従来の人工知能は“Aが来たらX、Bが来たらY”というように、単純な回答回路を使っていました。しかし、ディープラーニングでは問題と回答の間にいくつもの層を介在させることで、“Aが来たら○○で、▽▽で■■で、、、だからX”というように、精緻な分析が可能になりました。
連立方程式を例に考えてみましょう。
"Y = a1X1 + b"と比較して"Y = a1X1 + a2X2 + b"、"Y = a1X1 + a2X2 + ... + anXn + b"と項目が増えることでYの算出は複雑になりますが、より精密な予測が可能になります。
DLでは、このnの数が数億、数兆という規模で演算可能になったのです。
この分析方法はもともと我々の神経回路に似ており、早くから注目されていましたが、当時はコンピューターの計算能力が高くなく、実現は困難でした。最近になって、ようやくわれわれの脳みそを忠実にまねできるようになってきた、という感じでしょうか。
~AIの種類:空間と時間に分けて考える~
さて
DLには大きく分けて空間を扱うタイプ(画像処理)と時間を扱うタイプ(音声や音楽、文章処理)があります。
●空間を扱うタイプ(画像処理)
最初に注目されたのはCNN(畳み込みニューラルネットワーク)でした。CNNは画像の特徴を畳み込み演算を使って抽出し、空間の特徴を圧縮して分析します。これにより、画像内の物体が何であるか(例:犬やカップケーキ)を高い精度で判別します。
2010年代前半にGoogleが開発したAIが猫を識別した「Googleの猫」もCNNを使用しています。
※空間系の生成AIにはCNN以外にGAN(生成的敵対ネットワーク)やDiffusion Models(拡散モデル)などがあります。最近の画像生成AIであるDALL-EやStable Diffusion、Midjourneyも拡散モデルの一例です。
●時間を扱うタイプ(音声や言語処理)
CNNが画像などの空間を扱うのに対し、RNN(リカレントニューラルネットワーク)やTransformerといったAIは、音声や文章といった、時間的な系列情報を処理します。
初期のRNNにはいくつかモデルがありましたが、RNNを効果的に働かせるために“attention”という補助機能が発明されました。
そして、このattentionを補助ではなく主体的に活用する画期的なAIとしてTransformerが登場しました。
従来のRNNが過去の単語などの時系列情報に依存していたのに対し、Transformerは意味づけの重み(attention)を用いて解析を行います。これにより、文脈をより深く理解し、複雑な関係を捉えることができます。
(この、RNNとTransformerの違いも結構面白いので、改めて別個に解説してみたい笑)
Transformerの具体例としては、BERTやGPTがあり、これらは自然言語処理の分野で広く使用されています。BERTの”T”もGPTの”T”も、Transformerのことです。
そしてこのGPTをチャット形式にして誰でも使いやすくしたのが、、そう、ChatGPTなんですね~。
※誤解を避けるための補足
なお、CNNは画像、RNNやTransformerは系列情報「しか」扱えないのか?というとそうではありません。例えば、Vision TransformerというTransformer系のAIは精度の高い画像認識能力を持つものとして有名です。しかし、ここでは簡便な理解のため、CNNは画像、RNNやTransformerは言語や音声と理解していただくのが良いのではないか、と考えました。