ChatGPTは、どうやってプロンプトの回答を予測しているのか?

建築予定地やご希望の地域の工務店へ一括無料資料請求

   ChatGPTに代表される生成AIが新たなツールとなりつつある。それらを支える「大規模言語モデル」とはどのような仕組みなのか。

   本書「大規模言語モデルは新たな知能か ChatGPTが変えた世界」(岩波書店)は、どんな原理、技術が生成AIを支えているのか、文系のビジネスパーソンにもわかりやすく解説した本である。

「大規模言語モデルは新たな知能か ChatGPTが変えた世界」(岡野原大輔著)岩波書店

   著者の岡野原大輔さんは、2010年東京大学大学院情報理工学系研究科博士課程修了。博士(情報理工学)。2006年Preferred Infrastructureを共同で創業。2014年Preferred Networks(PFN)を共同で設立。現在、PFN代表取締役最高研究責任者およびPreferred Computational Chemistry代表取締役社長を務める。著書に「高速文字列解析の世界」「拡散モデル データ生成技術の数理」などがある。

   大規模言語モデルが登場してくるまでの過程をわかりやすく解説しているので、ChatGPTの原理を理解するのに役立つだろう。

確率から次の単語、文を予測する

   20世紀を代表する科学者であるクロード・シャノンが、1948年に発表した論文の中で、情報量と呼ばれる概念を導入し、情報理論という分野を立ち上げた。

   メッセージから意味をなくし、その事象が起こるであろう確率のみから情報量を定義するという、大胆な抽象化を行ったのである。

   情報という概念は、言語にも適用できる。

   確率の性質を使えば、ある文の出現確率は、これまで出現した単語列から次の単語が出現するであろうと予測した確率を、すべての単語について掛けあわせて求めることができるのだ。

   たとえば、「私 は 走る」という単語列の出現確率は、「私」という単語が出現する確率、「私」の後に「は」が出現する確率、「私 は」の後に「走る」が出現する確率を掛けた結果として求めることができる。

   そして、文に対して確率を割り当てることのできるモデルを、一般に「言語モデル」と呼ぶ。これまでの単語列から次に出現するであろう各単語の出現確率を予測するモデルで構成することができる。この予測確率は、訓練データを使って学習し推定する。

   言語モデルは別の目的にも使うことができる。それは、確率分布に従って新しく文を生成することである。

   これと並行して、消された単語を予測する(単語当てタスク)ことで言語理解の能力を獲得する「自己教師あり学習」が行われた。

   消された単語を予測する問題をたくさん解き、間違えた場合は正解を教えてもらう。そして、次からは同じように間違えず、当てられるように解き方を修正するだけで、言語理解に必要な能力を自然と獲得できるのではないか、という考えによるものだった。

   この考え方にもとづき、2018年にグーグルの研究者らがBERTと呼ばれるモデルを提案。これまでのモデルに比べて圧倒的に効果的に解けることを示した。

   単語当てタスクが解けるようになると、問題の背後にある法則やルールを理解できるかが、期待される段階になる。学習中に見たことのない将来のデータに対しても、うまく予測できるようになってほしい、というわけだ。

   このように、未知のデータでもうまく予測できるようになることを「汎化」と呼び、汎化ができる能力を「汎化能力」と呼ぶ。

言語モデルの「べき乗則」の発見

   訓練データとモデルサイズを大きくしていく過程で、2020年1月にジョンズ・ホプキンズ大学とオープンAIの研究者たちは、言語モデルにおける「べき乗則」を発見した。

   それはつまり、訓練データを増やせば増やすほど、モデルサイズを大きくすればするほど、学習時の投入計算量を増やすほど、言語モデルの性能は改善されることが分かったのである。

   これにより、投資対効果が前もって予測できること、モデルサイズを大きくすればするほど性能が上がることを前提に、企業や研究機関の大規模言語モデルの開発に拍車がかかった。

   モデルサイズを大きくしていく中で、それまでまったく解けなかった問題がある時点から、急に解けるようになる現象が起きるようになった。これを「創発」と呼んでいる。

   たとえば、質問応答や簡単な足し算、論理思考を必要とする問題を解くことや、プロンプトによってこれまで学習した結果とは異なる新しい情報を仮に受け入れること、抽象的な概念を扱えるようになることが、あるパラメータ数以上で「創発」する。

   大規模言語モデルはどのように動いているのか、著者はニューラルネットワークを使ったディープラーニング(深層学習)について解説。データの流れ方を学習し、短期記憶を実現する「自己注意機構」と、これまでの学習の長期記憶にもとづく「MLPブロック」と呼ばれる単位を交互に重ねていき、データを処理する「トランスフォーマー」というモデルが大規模言語モデルを実現したそうだ。

   さらに人間に寄り添う生成のための「目標駆動学習」を通じて、大規模言語モデルにどのような対話が良いのか悪いのか、価値観や考え方を教え込んだ。こうした部分は人に対する教育によく似ているところがあるという。

誤った情報をつくる「幻覚」という問題

   大規模言語モデルは大きな可能性を秘めているが、リスクや課題もある。

   まず、存在しない情報を作りだしてしまうという致命的な問題を挙げている。これは「幻覚」と呼ばれる。やっかいなことに、幻覚によって生成された誤った情報が、人間や専門家にも本物かどうか区別がつかないほど正確に見えてしまうことがある。

   これは前述した「汎化」と関連している。汎化によって、有限の訓練データをもとに無限の未知データを処理できるようになるが、誤った関係や事実も導いてしまうからだ。

   さらに新しいことを覚えると、以前覚えていたことを忘れたり、壊してしまったりする「破滅的忘却」という現象が起こり、結果として幻覚が生じるという。常に情報が間違っているかもしれないと考えながら行動することが肝要なようだ。

   これまで大規模言語モデルの研究結果はオープンだったが、広く使われた場合のリスクが高いことから、オープンAIはGPT-4以降、技術詳細を公開しないという方針に転換した。一部企業の独走が続くのか、他のオープンなモデルの進化が凌駕するのか、競争がますます激しくなりそうだ。(渡辺淳悦)

「大規模言語モデルは新たな知能か ChatGPTが変えた世界」
岡野原大輔著
岩波書店
1540円(税込)

姉妹サイト