このページについて
シンギュラリティをより感じやすくするために、AIの基本について簡単に説明したページ。
Feel The AGI。Feel The Singularity!
主に最近話題のAIに使われている技術の基礎的な説明、およびそれらとシンギュラリティとの関係性を述べる。
イメージをなんとなく把握するだけで十分にシンギュラリティを感じられるため、肩の力を抜いて読んでほしい。また、シンギュラリティ初学者向けにわかりやすさ・イメージしやすさを重視したため、必ずしも正確・適切な情報が書いてあるわけではないので、あしからず…
最近話題のAI
AIとはなにか?
シンプルに考えれば、''その正体はプログラムである。プログラム…Aという入力に対してBと回答する機械のことだ。そう考えると、まるですべてのパターンを人力で入力し、そのパターンに従ってコンピュータを適切に制御することで高度なAIを成り立たせているように思うかもしれない。しかし、実際にはそうではないのだ。
機械から少し離れて、人間を例に考えてみよう。人間が見つけられるパターンには限界がある。例えば、「1+1が2」であることは誰でもわかるだろうが、この世すべてのダークマターがどのようなパターンで動いているかを把握できる人間はいないのだ。これらのパターンを人力で発見し、プログラムで再現しようとすると多くの時間がかかってしまう。
そこでそのパターンを自動で見つけるとんでもないシステムが注目を集めた。それがニューラルネットワークである。仕組みは大胆に割愛するが、このニューラルネットワークを使うと、色々あってほとんどすべてのパターンを尤もらしく発見、再現できるのだ。便利!
そして、研究者はこのパターンを見つける作業を学習と呼ぶことにした。
例えば、猫の写真を大量に学習し、"猫がいる画像のパターン"を学習したニューラルネットワークがあるとする。ここで猫が写った画像を入力すると、ニューラルネットワークは画像に猫が写っていることを正しく認識してくれる(可能性が非常に高い)。ニューラルネットワークは、あくまでパターンを見つけ出して答えを出力しているため、学習した大量の写真の中に含まれていない新規の画像であっても、的確に猫がいるかどうかを判定することができる。この"学習あとのモデルに、質問をすることで、学習したパターンに沿った答えを出力させる行動"を推論(inference)と呼ぶ。
最近話題の多くのAIは、上述したニューラルネットワークを活用しているものだ。
ちなみに、有名なAIはほとんど全て、すでに学習を完了した状態で公開される。我々の前に姿を表しながら、リアルタイムで学習を継続するAIはほとんど存在しない。
大規模言語モデルとはなにか?
LLM(大規模言語モデル)という単語を目にしたことはないだろうか。
GPT-4oやGemini 2.0 Flash、Claude3.5 Sonnetなど……これらのモデルはいずれもLLMに分類される。言語モデルというだけあって、文字での出力・入力が得意だと考えてもらえればよい。
(言語のパターンを学習しているAI)
最近話題のLLM、ChatGPTでも有名なGPTを中心に見ていこう。GPTはGenerative Pre-Trained Transformerの略だ。特に注目してもらいたいのは「Transformer」の部分だ。これは機械学習モデルの一種なのだが、やはり詳細は大胆に割愛する。ここで理解してほしいのは、「Transfomerをデカくすればデカくするほど、AIのパワーが無限に向上していく。学習したパターンがより正確になっていく。」…ということだ。
先に述べたニューラルネットワークと、ここで取り上げたTransfomer、この2つをあわせて、色々やって、こねくり回して作られるモデルがLLM(大規模言語モデル)である。
要するに、AIの学習量を増やせば増やすほど無限に賢くなっていく。これがスケーリング則だ。
以下はそれを提唱した「Scaling Laws for Neural Language Models」という論文の中のグラフ。
ざっくり、縦軸は正解とモデルの予測結果とのズレを示しており、小さいほど性能がよいことを示す。どのグラフも、右に行くほど性能がよくなっており、それぞれ
- 学習時間をかければかけるほど
- 学習に使うデータを増やせば増やすほど
- モデルを大きくすればするほど
性能がよくなることを示している。
(なお、スケーリング則はこれに加えて、モデルサイズと学習に使うデータ量や、学習時間には適切なバランスがあることも示している。
つまり、大きくて性能がいいモデルを作ろうとすると、それに見合った量の学習時間・学習データが必要ということである)

広がるスケーリング則
では、Transformerモデルをデカくして、とにかく大量のデータをニューラルネットワークに学習させれば、AGIに至るのか…?
と思いがちだが、そこまで話は単純ではない。コストが問題なのだ。Transformerモデルをデカくすればデカくするほどコストが上昇する。さらに、大量のデータを使って学習すればするほど地球上に残された学習可能なデータは減っていくのだ。これでは、いつかAIの成長は頭打ちになってしまう。
しかし2024年後半、従来の手法に限界を感じた開発企業らは新しいAIの仕組みを考え出した。
推論時に大量の計算を行い、学習したあとにさらに学習を行うようにしたのだ。推論スケーリングである。こうすることで、学習コストをある程度抑えつつAIの成長を可能にしたのだ。
推論スケーリングの代表モデルとして、OpenAiのo1が挙げられる。o1は大量の推論を重ねることでより深い思考を行うことができるようになったのだ。
以下はOpenAIがo1の存在とともに公表したグラフ。
ここでは縦軸は性能確認に使ったテストでの点数であり、先程のズレとは逆に高いほうが性能がよいことを示す。
ざっくり、2つのグラフのうち左側は、前に出したグラフの一番左とだいたい同じ話で、学習に時間をかけるほど性能が上がることを示す。
一方右側は、テストで確認する時に、モデルに十分推論する時間を与えると、性能が上がることを示している。

o1のように大量の推論(inference)を重ねることで生み出す思考は、推論(reasoning)と呼ばれ、o1のようなモデルを推論モデル(reasoning model)と言う事が多い。翻訳の都合上紛らわしくなっている。
この推論スケーリングによって、AIの進化は現在も続いている…
(ここにTransformerモデルのスケーリングから様々なスケーリングに拡がって今も規模は拡大し続けてると記載予定。どなたでもご自由に。)
シンギュラリティとは
『シンギュラリティ(技術的特異点)とは、人工知能(AI)などのテクノロジーが急速に進化し、ある時点で人間の能力をはるかに超えることで、社会がこれまで想定していた枠組みを大きく変えてしまう可能性がある、という考え方です』
ーーとこのサイトのトップページや初心者向けFAQに記載されているが、正確には違う。
初学者がシンギュラリティのイメージを掴みやすくするために上記のように書かれているが、より正確な意味合いを取ると、以下のようになる。
「私たちはAIと融合し、生物学が私たちに与えた計算力を何百万倍にも増強することができる。これにより、私たちの知能と意識は非常に深く拡大し、理解することが難しいほどになる。これが私がシンギュラリティと呼ぶ出来事である」
つまり、シンギュラリティ初代提唱者であるカーツワイルの意に沿うならば、成長したAIと人間が物理的ないしデジタル的に融合し、人間の知能と知性が何百万倍にも拡張することをシンギュラリティと呼ぶのだ。
学校の先生やメディアなどですらこの点の理解を疎かにしがちなので、ぜひおさえていただきたいポイントである。誤用するとシンギュラリティ原義派が殴り掛かってくるので注意のこと
著名なシンギュラリティ提唱者およびそのリスクの所感
| 提唱者 | 用語使用 | 主張/貢献の概要 | 楽観/警戒 |
| ジョン・フォン・ノイマン | シンギュラリティの直接的言及なし | 技術加速が「歴史を超越する特異点」をもたらす可能性を示唆 | 中立~問題提起 |
| I.J.グッド | シンギュラリティは使わず「知的爆発」 | 自己改良型AIの指数関数的進化を警告 | やや警戒より |
| ヴァーナー・ヴィンジ | 「技術的特異点」で普及 | AIが人類を超えた後は予測不能 | 中立~警戒 |
| レイ・カーツワイル | シンギュラリティを積極使用 | 「2045年」説、指数関数的進化の法則 | 非常に楽観的 |
| ニック・ボストロム | 超知能(Superintelligence)重視 | 超知能リスクの体系的分析と安全策 | 警戒重視 |
| サム・アルトマン | 特異点という言葉は多用しない | AGIの早期実現可能性を示唆、社会的課題への対応を強調 | 条件付きの楽観 |
学習の種類
(本文はどなたでもご自由に。)
(事前学習、事後学習、教師なし学習、教師あり学習、強化学習、スケーリングの終了は今のところなさそう。事前学習のスケーリングのみ厳しい状況、事後学習の凄さと噂と現在)
AGIとは(スケーリングの先に。)
Artificial General Intelligence
人間と同等レベルの汎用さのAI。すごい。
ただし、何ができるとAGIと呼べるかは曖昧である。
シンギュラリティ・サーバーではbioshok氏の提唱する、『ホワイトカラーの50%を代替できる水準』が採用されていることが多い。
ASIとは
Artificial Super Intelligenceの略語である。
人間の何万倍~何億倍(もしかしたらそれ以上に)賢いAI。AGIよりもっとすごい。
SIとは
ArtificialではないSuper Intelligence、つまり人工ではない超知能のこと。
人類ではなく、AGIやASIによって生み出された超知能のことである。人間の手を離れ、自律的に知能が進歩していくというシンギュラリティの象徴。
マルチモーダルとは
「マルチモーダル(multimodal)」とは、複数の種類(モード)の情報を同時に扱うという意味。たとえば、人間で言う「見る」「聞く」「話す」「読む」といった感覚やコミュニケーション方法を、AIが総合的に扱う仕組みを指す。画像・音声・テキストなど、複数種類の情報を同時に扱う技術は、AIが人間のように総合的な判断や理解をする上で必須である。
Transformerモデルの記憶
(コンテキストウインドウ)
(本文はどなたでもご自由に。)
エージェント
エージェントとは、人間が決めた目標を達成するために、自分で考えて行動するAIシステムのことである。
「エージェント」という言葉は、日本語で「代理人」という意味があり、人間がする仕事を代わりにこなしてくれるものをイメージすると分かりやすい。
AIがエージェントとして動作する際、エージェントが自分で考えて答える場合もあれば、検索エンジンや他のツールを使って調べた結果をもとに答えることもある。また、ClaudeのComputer Useのように、エージェントがパソコンを操作するものであれば、エージェントの操作やその結果自体がアウトプットになる。
エージェントに関する研究には、大きく分けて2つの方向性がある。
- 一つのエージェントで人間のように自分で考え、複雑な作業を安定してこなせるようにすることを目指す。この方向では、エージェントが一人で学んだり、周りの環境の変化に合わせて動ける能力が重要になる。
- 複数のエージェントを協力させて、それぞれが違う役割を持ちながら、一緒に複雑な作業を進めることを目指す。このような協力の結果、個々ではできないような難しいタスクが実現できることがあり、これを「創発性」という。
実際には複数のエージェントを束ねたシステム自体を1つのエージェントとみなせることもあり、両者を厳密に区別しづらいこともあるが、シンギュラリティーサーバーでは、人間と同じかそれ以上のタスク実行能力を持つ単一モデルの実現と、それがもたらす社会変革についての関心が高い背景から、エージェントというキーワードは前者を意識して使われることが多い。
そしてこの中では、エージェントができることのレベルや、それが一定の段階に達するまでの期間について話されることも多い。ここではこれに関連する概念をいくつか紹介する。
エージェントという言葉が指すものは定義によって異なる。そのため、絶対的な正解を見出すというよりは、これらを参考として自他の見解の立ち位置を把握していくのがよいだろう。
1. AIがどれくらいの割合の人を能力で上回るかに基づく定義
Levels of AGI for Operationalizing Progress on the Path to AGI (Morris et al., 2023)
https://arxiv.org/abs/2311.02462
2023年11月に発表されたこの論文では、AGI(人工汎用知能)モデルやその前身のモデルがどのように動作し、どのような能力を持つかを分類するための方法を提案している。
ここではまず、AGIに至るレベルを定義している。基準となるのは以下の2つの視点である。
- そのAIが、どの程度の割合の人間より優れているか(行方向)。
- 単に知識に基づいて対応するだけなのか、新しいスキルを習得することができるのか(列方向)。
ここで、列方向で注目される新たなスキルの習得は、ARC-AGIでの評価指標とも関連しているかもしれない。
(表は元論文の内容を日本語翻訳し一部改変)
| レベル | AIと人の能力比 | 明確に範囲が限定されたタスクまたはタスクのセットでの例 | 新しいスキルの習得などのメタ認知タスクを含む、一般的な幅広い非身体的なタスクでの例 |
|---|---|---|---|
| レベル0: AIなし | 非AI。 計算機ソフトウェア | 一般的な非AI。 人間が介入するコンピューティング | |
| レベル1:発達途上 | 未熟な人間と同等か、それよりいくらか優れた能力を発揮する | 狭義の発達途上AI。 SHRDLU (1960年代末に開発された言語処理プログラム) | 発達途上のAGI。 GPT-3.5 |
| レベル2:有能 | 熟練した大人の50パーセンタイル以上 | 狭義の有能なAI。 Siri | 有能なAGI。 まだ実現されていない |
| レベル3:専門家 | 熟練した大人の90パーセンタイル以上 | 狭義の専門家AI。 Dall-E 2 | 専門家AGI。 まだ実現されていない |
| レベル4:巨匠 | 熟練した大人の99パーセンタイル以上 | 狭義の巨匠AI。 AlphaGo | 巨匠AGI。 まだ実現されていない |
| レベル5: 超人 | 100%の人間を上回る | 狭義の超人AI。 AlphaFold | 人工超知能(ASI)。 まだ実現されていない |
この表を見ると、範囲が決まったタスクにおいては、すでに人間を超えるレベル5に達しているAIも存在するが、メタ認知が必要な場面では、2023年時点ではまだレベル1に留まっていたことがわかる。
その上で、論文では「自律性」についても詳しく定義している。それぞれの段階をAGIのレベルに関連づけながら、人間や社会に与える影響やリスクについても触れている。
(表は元論文の内容を日本語翻訳し一部改変)
| 自律レベル | 説明 | システム例 | AGIレベルの到達水準 | 懸念されるリスクの例 |
|---|---|---|---|---|
| レベル0: AIなし。 | 人間がすべてを行う | アナログアプローチ(例: 紙に鉛筆でスケッチする) | AIなし | なし(現状維持リスク) |
| レベル1: ツールAI | 人間がタスクを完全に制御し、AIを使用して日常的なサブタスクを自動化する。 | 検索エンジンを利用して情報を検索する | 可能性あり: 狭義の発展途上AI 可能性が高い: 狭義の有能なAI | スキルの低下(例: 過度な依存)既存産業の混乱 |
| レベル2: コンサルタントAI | AIは実質的な役割を担うが、それは人間によって呼び出された場合のみである | 言語モデルを利用して文書セットを要約する | 可能性: 狭義の有能なAI 可能性が高い: 狭義の専門家AI、発展途上AGI | 過度の信頼、過激化、標的を絞ったマニピュレーション |
| レベル3: 協力者AI | 人間と AI の同等の協力関係を築き、目標とタスクをインタラクティブに調整する。 | チェスをプレイするAIとのやり取りや分析を通じてチェスプレイヤーとしてのトレーニングを行う | 可能性: 発展途上AGI 可能性が高い: 狭義の専門家AI、有能な AGI | 擬人化(例: 準社会的関係)急速な社会変化 |
| レベル4: 専門家AI | AIがインタラクションを推進し、人間がガイダンスやフィードバックを提供したり、サブタスクを実行する。 | AI システムを使用して科学的発見を促進する | 可能性あり: 狭義の巨匠 AI可能性あり: 専門家AGI | 社会規模の倦怠感、大量の労働力の喪失、人間例外主義の衰退 |
| レベル5: エージェントAI | 完全に自律的なAI | 自律型 AI 搭載パーソナル アシスタント(まだ実現していない) | 可能性が高い: 巨匠AGI;ASI | ミスアライメント、権力の集中 |
この定義では、エージェントは最高レベルの自律性を持つ存在として定義されている。
2. AIが実行できることの高度性に基づく定義
https://www.bloomberg.com/news/articles/2024-07-11/openai-sets-levels-to-track-progress-toward-superintelligent-ai?embedded-checkout=true
2024年7月にOpenAIは、AIの自律性を5段階で定義した。
シンギュラリティサーバーにおいて、特にOpenAI関連でエージェントというキーワードが出てくる際はこの定義に従っていることがしばしばある。
| レベル | 名前 | 機能 |
|---|---|---|
| レベル1 | チャットボット(Chatbots) | 会話言語を備えたAI |
| レベル2 | 推論者(Reasoners) | 人間レベルの問題解決。ツールにアクセスできない博士レベルの教育を受けた人間と同様に基本的な問題解決タスクを実行できるシステム |
| レベル3 | エージェント(Agents) | アクションを実行できるシステム。数日かけてユーザーに代わって行動できる AI システム。 |
| レベル4 | イノベーター(Innovators) | 発明を支援し、新しいイノベーションを生み出すことができるAI |
| レベル5 | 組織(Organizations) | 組織の仕事をこなせるAI |
GPTやGeminiなどのAIは、現在レベル1に分類される。一方、2024年後半に発表された"o1"や"o3"というモデルは、レベル2の可能性があると考えられている。そして、2025年以降には、さらに進んだレベル3以上のAIが登場することが期待される。
ただし、AIができるタスクがどの分野のものかについては、ここでは定義されていない。そのため、同じAIでも何をさせるかによって、能力のレベルが変わることがあり得る。
例えば、あるAIが機械学習に関する研究の分野ではレベル4に相当する能力を持ち、発明の支援ができるとしても、心理カウンセリングでは、ユーザーの気持ちを細かく理解し、調整する力が不足しているため、レベル2や1にとどまることがあるかもしれない。
OpenAIはAGIの実現を目標としているため、ここでの定義はすべての分野で高い能力を持つことを前提としている可能性が高い。しかし、少なくともAIモデルが情報工学に加えて、電子工学、材料科学といったAI開発に関連する分野の研究を自律的に行えるレベル5の能力を持つことができれば、その後のAI自身の進化が加速し、他の分野での性能も大きく向上することが期待される。
この進み方などについての詳しくは、ANI(特化型AI)、AGI(汎用AI)、ASI(超知能AI)といった関連項目を参照されたい。
3. 人間がそのタスクを行うのにかかる時間に基づく定義(t-AGI)
https://www.lesswrong.com/posts/BoA3agdkAzL6HQtQP/clarifying-and-predicting-agi
直接エージェントという言葉は出てこないが、それに関連する考え方を簡単に紹介する。
OpenAIの定義を見ると、レベル3以上では、モデルが扱うタスクの抽象度や範囲が広がり、時間のスケールも大きくなるとと捉えることもできる。
たとえば、簡単な数学の問題なら数時間から数日で解ける。しかし、機械学習のモデルの学習を自動でさせようとすると、単にデータを見て適切なモデルを考えるだけではなく、必要な計算資源やデータ格納先を確保する必要がある。さらに言えば、完全に自動化するのであれば、以下のことにも気をつける必要が出てくるだろう:
- モデルを動かすために現在のハードウェアは適切か?
- 予算内で利用できる計算資源はどれくらいか?
- モデルを改良するためにどれくらいの時間をかけられるか?
これらの答えを知るためには、必要な調査や分析、調整、判断をしなければならないことが多い。また、どのツールを使うべきか、どんな方法で解決するかも、すぐには分からない場合がある。
このような複雑な問題に取り組む際、人間は他の人に質問・協力したり、情報を調べたり、試行錯誤したりして解決を目指す。しかしその際にも、問題が難しいほど解決に時間がかかるし、実行する主体には高い自律性が求められるようになることが想像できる。
こうした時間に基づく定義として、Richard Ngoが2023年5月に提案した、タスクに必要な時間を基準にしてAIの性能を測る方法がある。
彼はt-AGIを「ほとんどの認知タスクにおいて、タスクを実行するために t 時間が与えられたほとんどの人間の専門家よりも優れているシステム」と定義し、具体的には以下のような例を挙げている。
| 時間 | 人間に勝つために実行できるべきタスク |
|---|---|
| 1秒AGI | 雑学クイズへの素早い回答、基本的な物理学の直感(例:「弦を押すと何が起こるか?」)、画像内オブジェクトの認識、文法的な文章の判別など。 |
| 1分AGI | 短いテキストやビデオに関する質問への回答、常識的な推論(例: Yann LeCun のギアの問題)、簡単なコンピュータータスク(例: Photoshopで画像をぼかす)、意見の正当化、事実調査など。 |
| 1時間AGI | 問題集や試験の解答、短い記事やブログ投稿の執筆、ホワイトカラーの仕事のほとんど(患者の診断、法的意見の提供など)、セラピーの実施、オンラインでの用事、新しいゲームのルールの学習など。 |
| 1日AGI | 洞察力のあるエッセイ執筆、ビジネス取引の交渉、新しいゲームやソフトウェアの熟練利用、新しいアプリの開発、科学実験の実行、科学論文のレビュー、本の要約など。 |
| 1か月AGI | 中期計画の首尾一貫した実行(例: スタートアップの設立)、大規模プロジェクトの監督、新しい分野の習熟、大規模ソフトウェアアプリケーション(例: 新しいOS)の作成、新しい科学的発見など。 |
| 1年AGI | 基本的にすべての分野で人間に勝つ必要がある。一部のプロジェクト(例: フェルマーの最終定理の証明)は長期間を要するが、ほとんどのケースでサブタスクに分解可能。 |
これは直接エージェントの定義と関わるものではないが、自律性に関わる指標の一つとしては、参考になるかもしれない。
なお、上記記事にはそれぞれの段階の実現時期について、Daniel KokotajloとRichardとの間の議論もあり、そちらも話題にのぼることがある。
アライメントとは
LLM以外のAGIへのアプローチ(JEPAとか?)
そんなのあるんですか