~いまのAIの勢いはどこから? ディープラーニングからChaTGPTまでのカンタンな解説~

最近のAI発展の経緯と、そこからChatGPTの登場までをまとめてみました。

だいぶわかりやすくまとめたつもりですが、、どうでしょうか?


実際に講演させていただく際などには、さらにわかりやすく解説できると思います^^。


※ ChatGPTにイメージを描いてもらいました。


●第3次AIブームとディープラーニングの発展

第3次AIブームは主にディープラーニングの登場が寄与しています。

ディープラーニングの登場により、これまで達成できなかった精度での分析が可能になりました。


●ディープラーニングの「深さ」

ディープラーニングの「Deep」、つまり「深い」という部分が重要です。

従来の人工知能は“Aが来たらX、Bが来たらY”というように、単純な回答回路を使っていました。しかし、ディープラーニングでは問題と回答の間にいくつもの層を介在させることで、“Aが来たら○○で、▽▽で■■で、、、だからX”というように、精緻な分析が可能になりました。


連立方程式を例に考えてみましょう。

"Y = a1X1 + b"と比較して"Y = a1X1 + a2X2 + b"、"Y = a1X1 + a2X2 + ... + anXn + b"と項目が増えることでYの算出は複雑になりますが、より精密な予測が可能になります。

DLでは、このnの数が数億、数兆という規模で演算可能になったのです。

この分析方法はもともと我々の神経回路に似ており、早くから注目されていましたが、当時はコンピューターの計算能力が高くなく、実現は困難でした。最近になって、ようやくわれわれの脳みそを忠実にまねできるようになってきた、という感じでしょうか。


~AIの種類:空間と時間に分けて考える~

さて

DLには大きく分けて空間を扱うタイプ(画像処理)と時間を扱うタイプ(音声や音楽、文章処理)があります。


●空間を扱うタイプ(画像処理)

最初に注目されたのはCNN(畳み込みニューラルネットワーク)でした。CNNは画像の特徴を畳み込み演算を使って抽出し、空間の特徴を圧縮して分析します。これにより、画像内の物体が何であるか(例:犬やカップケーキ)を高い精度で判別します。

2010年代前半にGoogleが開発したAIが猫を識別した「Googleの猫」もCNNを使用しています。

※空間系の生成AIにはCNN以外にGAN(生成的敵対ネットワーク)やDiffusion Models(拡散モデル)などがあります。最近の画像生成AIであるDALL-EやStable Diffusion、Midjourneyも拡散モデルの一例です。


●時間を扱うタイプ(音声や言語処理)

CNNが画像などの空間を扱うのに対し、RNN(リカレントニューラルネットワーク)やTransformerといったAIは、音声や文章といった、時間的な系列情報を処理します。

初期のRNNにはいくつかモデルがありましたが、RNNを効果的に働かせるために“attention”という補助機能が発明されました。

そして、このattentionを補助ではなく主体的に活用する画期的なAIとしてTransformerが登場しました。

従来のRNNが過去の単語などの時系列情報に依存していたのに対し、Transformerは意味づけの重み(attention)を用いて解析を行います。これにより、文脈をより深く理解し、複雑な関係を捉えることができます。

(この、RNNとTransformerの違いも結構面白いので、改めて別個に解説してみたい笑)


Transformerの具体例としては、BERTやGPTがあり、これらは自然言語処理の分野で広く使用されています。BERTの”T”もGPTの”T”も、Transformerのことです。

そしてこのGPTをチャット形式にして誰でも使いやすくしたのが、、そう、ChatGPTなんですね~。


※誤解を避けるための補足

なお、CNNは画像、RNNやTransformerは系列情報「しか」扱えないのか?というとそうではありません。例えば、Vision TransformerというTransformer系のAIは精度の高い画像認識能力を持つものとして有名です。しかし、ここでは簡便な理解のため、CNNは画像、RNNやTransformerは言語や音声と理解していただくのが良いのではないか、と考えました。

Previous
Previous

~GPTのここがすごい、を、二日酔いのセンパイとの会話で説明してみた〜

Next
Next

~青いモックテールと~