凡例
5期は歴史全体の時代区分、5層は各イベントの分類タグである。5期と5層は混同しない。
学問史
言語観、知能観、統計、情報理論、認知科学。
技術史
ニューラルネット、Attention、Transformer、RLHF、Diffusion。
計算資源史
GPU、TPU、クラウド、Webコーパス、データセンター。
企業/モデル史
OpenAI、Google、Anthropic、Meta、Stability AI、Midjourneyなど。
社会/市場史
検索、SNS、SaaS、教育、開発支援、規制、知的労働。
第1期|1948〜1989
情報を形式化する
知能、言語、情報を形式化しようとした時代。生成AIの直接の技術ではないが、機械が言語を扱うための問いがここで立ち上がる。
Claude Shannon『A Mathematical Theory of Communication』
情報を意味ではなく、符号化・通信・ノイズ・エントロピーとして扱う枠組みが成立した。「言語を確率的系列として見る」視点の前史になる。
Alan Turing『Computing Machinery and Intelligence』
機械が知能を持つとは何か、対話によって知能を評価できるのか、という問いが定式化された。
ダートマス会議
Artificial Intelligenceという名称が定着する出発点。生成AIそのものの始まりではないが、AIを研究分野として名づけた基点である。
Noam Chomsky『Syntactic Structures』
言語を有限の規則から無限の文を生成する体系として捉える生成文法が登場した。後の生成AIとは異なるが、「生成」という問いの重要な前史である。
ELIZA
対話型プログラムの初期例。理解しているように見えるインターフェースの原型として、後のチャットAIを考えるうえで重要である。
誤差逆伝播法の普及
多層ニューラルネットを学習するための実用的手法として広がり、後の深層学習の基礎条件になった。
エキスパートシステムの流行と限界
人間の知識をルールとして記述するAIが期待されたが、現実世界の曖昧さと常識量にぶつかった。
第2期|1990〜2011
統計的言語処理への転換
AIは、人間がルールを書くものから、大量データから確率的に学ぶものへ移る。Webは、人類の言語化された世界を巨大な機械可読コーパスに変えていく。
統計的自然言語処理の主流化
ルールを人間が書くより、大量データから確率的に学ぶ方向へ移行した。意味理解よりも分布処理が実用的成果を出し始める。
LSTM
長期依存を扱うRNN系モデルとして登場し、Transformer以前の系列処理を支える重要技術になった。
Google創業
Webを巨大な言語・リンク構造として索引化する検索エンジンが成長した。後のLLM時代に向けて、Webが巨大な学習資源になる前提が形成される。
Wikipedia開始
人類の知識が機械可読な大規模テキストとして蓄積される象徴的出来事。
GPUによる深層学習の実用化が進む
大規模ニューラルネットを現実的な時間で学習できる条件が整い始める。
ImageNet公開
画像認識における大規模データセット時代を象徴し、後の視覚モデル・マルチモーダルAIへの前史になる。
第3期|2012〜2021
深層学習とTransformer
深層学習、表現学習、生成モデル、Attention、Transformerが接続し、現在のLLMの直接的な基盤が成立する。
AlexNetがImageNetで大きな成果
深層学習とGPU計算の有効性が広く認識された。
word2vec
単語をベクトルとして扱い、意味を空間上の関係として捉える流れが強まった。
Sequence-to-Sequence
入力系列から出力系列を生成するニューラル機械翻訳の基礎が整う。
GAN
生成モデルが画像生成などで注目を集める。
Attention機構
モデルが入力のどこを見るかを学習する仕組みが発展し、Transformerへの重要な前段階になる。
Diffusion Model
ノイズからデータを生成する考え方が登場し、後の画像生成AIの重要な流れにつながる。
OpenAI設立
大規模AI研究組織として登場し、後のGPT系列の開発主体になる。
Transformer
Attentionだけに基づくアーキテクチャとして提案され、並列計算と大規模学習に適したLLMの基盤になる。
GPT-1
Transformerを用いた事前学習と微調整の方向を示し、GPT系列の出発点になる。
BERT
Transformerを使った事前学習モデルが、自然言語処理の中心へ移り始める。
GPT-2
大規模化によって自然な文章生成能力が注目され、公開範囲や安全性をめぐる議論も起きた。
GPT-3
スケーリングによって、少数例からタスクに対応する能力が注目された。
大規模学習のクラウド化・産業化
巨大モデルの学習は、研究室単独ではなく、クラウド、専用チップ、データセンター、資本投下と結びつく。
GitHub Copilot
生成AIが文章生成だけでなく、実務的なソフトウェア開発支援へ進出した節目。
Anthropic設立
AI安全、Constitutional AI、スケーリングに伴うリスクを前面に出す企業として登場。
CLIP
画像と言語を対応づける表現学習が、後の画像生成・マルチモーダルAIの基礎になる。
第4期|2022〜2023
生成AIの社会化
生成AIが研究技術から一般ユーザーの道具へ移る。ChatGPTは「生成AI技術の誕生日」ではなく、社会的普及の転換点である。
InstructGPT
大規模言語モデルを、人間の指示に従いやすい形へ調整する方向を明確にした。
RLHF
人間のフィードバックを用いて、モデル出力を人間の意図や好みに合わせる調整手法が重要になる。
Stable Diffusion
画像生成AIが一般ユーザーやクリエイターに広がり、著作権や創作の議論も拡大した。
Midjourney
プロンプトによる画像生成が、デザイン、アート、広告、SNSの文脈へ広がる。
ChatGPT公開
LLMが自然言語で誰でも使える社会的インターフェースを得た。生成AIの社会的爆発の転換点。
教育・仕事・著作権をめぐる議論の拡大
生成AIは、便利なツールであると同時に、評価、創作、労働、情報信頼性をめぐる社会問題として現れる。
GPT-4
高性能LLMの代表的節目。生成AIが文章生成だけでなく、推論、コード、画像理解へ広がる可能性を示す。
Claude
Anthropicによる対話型AI。安全性、長文対話、憲法AIなどの観点が注目される。
Llama 2
オープンモデル陣営を成立させた象徴的イベント。生成AI史は「最高性能モデル競争」だけでなく、「誰がモデルへアクセスできるか」の歴史でもあることを示す。
Google Gemini 1.0
Google DeepMind体制下で、マルチモーダル基盤モデルGeminiを発表。
第5期|2024〜
推論・エージェント時代
生成AIは、文章生成AIから推論AIへ、推論AIからエージェントへ、エージェントから知的作業環境の再編へ進みつつある。
Gemini 1.5
長文コンテキストとマルチモーダル処理が重要な競争軸になる。
Claude 3
Opus / Sonnet / Haiku の3モデル構成で発表。性能、速度、コストの使い分けが前面に出る。
Llama 3
オープンモデルの性能競争がさらに進み、ローカルLLMや企業内利用の可能性が広がる。
GPT-4o
テキスト、音声、画像を横断するマルチモーダルな対話体験が前面に出た。
o1-preview / o1-mini
生成から推論へ、単発回答から計画・検証・問題解決へと競争軸が移り始めた。
知的作業環境への埋め込み
ブラウザ、IDE、オフィススイート、検索、チャット、社内ナレッジ、カレンダー、メールなどにAIが埋め込まれる。
生成AI史は知的作業環境の再編史へ
生成AIはモデル史であると同時に、検索、文書作成、開発、教育、経営判断の作業環境そのものを再編する歴史になりつつある。
出典・参考資料
主要な一次資料・論文・公式発表。今後、各イベントごとの出典リンクをさらに細かく追加する。
- Claude Shannon, A Mathematical Theory of Communication
- Alan Turing, Computing Machinery and Intelligence
- Vaswani et al., Attention Is All You Need
- Brown et al., Language Models are Few-Shot Learners
- Ouyang et al., Training language models to follow instructions with human feedback
- OpenAI, Introducing ChatGPT
- OpenAI, GPT-4
- OpenAI, Hello GPT-4o
- OpenAI, Introducing OpenAI o1-preview
- Anthropic, The Claude 3 model family
- Meta AI, Llama 2
- Google, Introducing Gemini