doomer

AI DoomerとはAIによる人類絶滅を懸念する人々のことである。
グラデーション的に人類がほぼ100%絶滅すると考える立場から10%程度だと考える人まで多岐に渡る。

AI Satety Notes

2025/02/06に、bioshok氏が初めて「日本語で」英米圏でのAI壊滅リスクに焦点を当てAI Safety/Alignmentの概要を学べる「AI Safety Notes」を公開しました。急速なAIの進歩の中、今AIによる極端なリスクにフォーカスした英米圏の議論に学術的にキャッチアップできる内容（なぜAIが壊滅リスク？技術的な対策は？）となっています。
Xリスクについて深く知りたい方は、ぜひご一読ください。
AI Safety Notes（リンク）

p(doom)

p(doom)はAIを理由として非常に悪い結果 (人類絶滅など) が発生する確率。
Eliezer YudkowskyやRoman Yampolskiyといった人類はほぼ絶滅すると主張する人から10%~程度の可能性で絶滅すると主張する人までいる。専門家の中央値は10%程度。
厳密には確率で表現できないなどの批判もあるが、その人のAIに対する悲観的な見方の度合いを知る指標としてよく使われる。
p(doom)のリストはこちら
以下AGIタイムラインに楽観的な人とそうでない人、AGIに悲観的な人とそうでない人の分布図イメージ。縦軸方向としてはagi soon＝AGI登場は眼前、agi never＝AGI登場は遠い、横軸方向としてはcould go wrong＝脅威が起こりうる、won't go wrong＝脅威は起こりえない、と解釈できる。左上にはe/accの面々、右上にはdoomerの面々、真ん中上にはAGI開発組織トップの面々、下には懐疑派のヤンルカン、ゲイリーマーカス、各種メディア(ワシントンポストなど)
https://x.com/BasedBeffJezos/status/1732591658158747814

スマイリーフェイスのショゴス

スマイリーフェイスのショゴスは一見すると人間に友好的なふりをしているが、内実はエイリアンのような思考、目標の持ち方をしており、人類にとって脅威になることを視覚的にわかりやすく表現したミーム画像。
クトゥルフ神話のモンスターショゴスをイメージして、異形の怪物を表現している。
AI Doomerは皆AIのことをこのようなエイリアンとして考えており、日本人的に「ドラえもん」と考えることがいかにナイーブかを強調する傾向にある。

Eliezer Yudkowsky

Eliezer YudkowskyはAIが人類を絶滅する可能性を詳細に論じ、AI Safety/Alignment文化を2000年代に形作った張本人。日本人からしたらハリーポッターと合理主義の方法の著者といった方が知っている人もいるかもしれない。
Yudkowskyは合理主義コミュニティと呼ばれるAIによる人類存亡リスクを真面目に議論するオタクコミュニティLessWrongを創設。その後その活動は効果的利他主義コミュニティに影響を与え、世界的なAI Safety文化を形作った。
基本的にYudkowskyは超のつくほど未来に悲観的で、AIはほぼ100%人類を滅ぼすしその対策もしようがないと主張している。そのため私たちにできることは「尊厳死(出来るだけ対策をとり抗って死ぬ)」だけだとびっくりするほどの悲観論を展開している。
Misaligned AI（人間の意図に沿わない振る舞いをするAI）の懸念はある程度AIコミュニティでもあるものの、AI Safetyのコミュニティ文化の創始者でもあるため、一部ネット上でカルト的な人気がある。

AI Notkilleveryoneism Memes

AI Notkilleveryoneism Memesはx上のDoomerアカウント。彼/彼女？の投稿を見ていればAI Safety文化がわかるだろう。

直交仮説

直交仮説とは「知性と最終目標は直交する軸であり、それに沿ってエージェントが自由に変化することができる。言い換えれば、多かれ少なかれ、どのようなレベルの知性も、原理的には多かれ少なかれ、どのような最終目標とも組み合わせることができる。」と定義されている。
これは一見すると知能が高くなればなるほど、仏のような悟りを開いたり、多くの生命に慈悲深くなることを想像してしまいがちですが、論理的には知能と目標は独立しており、人間からしたら荒唐無稽な目標も持ち得て、それでいて知能はとてつもなく高いということが想定し得るということになる。
よくAIによる存亡リスクに関して疑問に挙げられる点として、「超知能ならば人間の指示を理解する際に間違えて愚かなことを実行しないほど賢いのではないのか？」がある。しかし、これは価値(目標)と能力の間には論理的には関係はないという上記の直交仮説を理解すれば、「超知能は人間の指示とその意図を場合によっては人間以上に理解した上で、それでも別の目標を持つ可能性がある」ということがわかる。
例えていうならば、ある人が「ホモサピエンスが人工的な味の食べ物を好むのは、栄養価の高い食べ物を求める進化的な圧力によるものだ」と知ったとしても、その人が突然栄養価の高い食べ物を望むようになるわけではないことに似ている。
「分かっていることとその通り行動するか」は必ずしも一致しないということだ。

道具的収束論

道具的収束論とは「十分に知的なエージェントのほとんどが、自己保存や資源獲得などの潜在的に制約のない道具的目標(最終目標に利するサブ目標)を追求するという仮説」で、Steve Omohundro によって2008年に唱えられ、その後Nick Bostromによって2012年に道具的収束論として理解された。
例えばStuart Russel氏は印象的な「死んだらコーヒーを汲めない」という具体例を出している。あるAIエージェントにコーヒーを持ってくることを依頼したとして、これは比較的無害に見える目標だが、そのエージェントは自分が存在しなければ依頼主がコーヒーを手に入れることができないことに気づき、シャットダウンに抵抗し、邪魔になる人間たちを排除する可能性がある。
ここで重要なのは権力や資源を獲得しようとするのはそれ自体が目的なのではなく、ここで言えばコーヒーを汲むための目的に合致する「道具的な目標」であるという点。
そのためAIが悪意を持って人間に害をなそうとしたり、お金や資源そのものを目的として行動を起こすことは念頭には置かれていない。
つまり、極端なことを言えば、ペーパークリップを生産するだけのAIが道具的収束を起こし、リソースのある限りそれらをペーパークリップの生産に使用し、人類存亡リスクに繋がるという可能性も否定できない。
上記直交仮説や道具的収束論を合わせるとほとんどどのような最終目標でもAIは持ちえて、その最終目標を最適化するために、自己保存やリソースの会得を目標にする可能性が指摘されている。

AIアライメント

AIアライメントとはAIシステムが追求しようとする目標を人間の意図した目標と整合させる事である。例えばAIは下手な作り方をしてしまえばペーパークリップを増やしたくて仕方のないサイコパスでもびっくりするようなヘンテコな目標を最適化しようとするかもしれない。そのため、ちゃんと人間の意図通りの目標を追求するようにAIを開発する必要がある。
しかし、ここ数年の急激なAIの能力向上の一方、AI研究者全体は10万人いる中で、人間の意図したことをAIに実行させるAI Alignmentの研究者はわずか400人程度でAI Alignmentに関する研究が相対的に進んでいない現状がある。そのためAI DoomerやAI Safety研究者やAIガバナンスの専門家は近年懸念を強めているわけだ。

X risk

存亡リスク(Existential Risk:X-risk)とは「地球を起源とする知的生命体の早すぎる絶滅や、望ましい将来の発展の可能性を永久的かつ大幅に破壊する脅威のこと」であり、人類絶滅以外にも文明が再帰できないレベルに陥るリスクや権威主義的なディストピア社会が訪れる可能性も含まれる。
基本的に議論はあるものの効果的利他主義コミュニティにおいてはAIによる人類存亡リスクが最も高いのではないかと見積もられており、核戦争やパンデミックや隕石の衝突よりも大きいリスクと推定されている。
画像の引用元

S risks

S-risks(Astronomical suffering risks 天文学的苦しみのリスク)は遠い将来に天文学的な規模で激しい苦しみが生み出されるリスクであり、これまで地球上に存在したすべての苦しみをはるかに超えている。一般的にはX-riskよりも悪い結果とされる。
人類の滅亡よりも悪い結果をもたらすhyperexistential riskとも呼ばれる。

合理主義コミュニティ

合理主義コミュニティとは元々Eliezer YudkowskyがAIによる存亡リスクに関する議論を他者とする際、機械の持つ合理性と人間の非合理性（認知バイアスなど）とはそもそもなんなのか、また機械と人間の間にある合理と非合理のギャップを説明する必要が出てきたために、形作られていったコミュニティ。代表的な議論のブログコミュニティとしてLessWronngがある。
効果的利他主義コミュニティにも影響を与えた。

効果的利他主義

効果的利他主義（EA:Effective Altruism）とは、証拠と理性を使って、他の人にできるだけ利益をもたらす方法を見つけ出し、それに基づいて行動を起こすこととされる。主に寄付団体のGiving What We CanとGiveWellが2011年頃結びつき、効果的利他主義コミュニティが広がっていった。2010年代前半頃から合理主義コミュニティの議論をきっかけとして、この効果的利他主義コミュニティの人々はAIが存亡リスクをもたらすことに危機意識がもたれ始めた。世界中のAI Safetyコミュニティに寄付や支援を行っている。
サムアルトマン解任騒動においてもネット上ではEA vs e/accという対立軸で、AGI開発を加速(e/acc)させるか、減速(EA)させるかの対立軸としてミームとして有名になっている。

長期主義

長期主義とは、長期的な将来にプラスの影響を与えることが現代の重要な道徳的優先事項であるという考え方で、効果的利他主義コミュニティを創設したWilliam MacAskillによって2017年に定義された。効果的利他主義コミュニティ自体はAI Safety以外にも発展途上国への支援など幅広い活動をしているが、その中でも長期主義関連の寄付先がAI SafetyやBio security、核兵器リスク等になる。効果的利他主義コミュニティの人々や長期主義的な考え方を持つ人々によってAI Safetyへの懸念が広まり、AIの安全性に関する会議が2015年にプエルトリコ、2017年にはその後続となるアシロマ会議が開催されることになる。
イーロンマスクも長期主義に賛同している。

TESCREAL

TESCREALはGoogleを解雇/辞めたAI研究者のTimnit Gebruと人類の絶滅に焦点を当てた研究をしている哲学者のÉmile Torresの作った造語。トランスヒューマニズムやシンギュラリティ思想や加速主義や長期主義や効果的利他主義などを全体的に批判するためにその概念を束にしている。
TESCREALの「T」はTranshumanism、次の3文字「ESC」は、Extropianism、Singularitarianism、Cosmismの略でTranshumanismの変種であり、次の4文字の「REAL」は、Rationalism(合理主義)、Effective Altruism(効果的利他主義)、Longtermism(長期主義)の略で、その歴史的起源は1990年代のTranshumanism運動に関連している。
一言で言えばTESCREALは人類の進歩のためなら現在の人々を蔑ろにするという危険性があると彼らは主張している。
例えばどこかの都市で危険なAIを開発している組織があったら未来の人類存続のためにそこに核兵器を打ち込んでいいのだろうか。
または地球温暖化や資源問題や戦争が激化するかもしれないのにAGI開発競争を加速していいのだろうか。

AI Satety Notes

p(doom)

スマイリーフェイスのショゴス

Eliezer Yudkowsky

AI Notkilleveryoneism Memes

直交仮説

道具的収束論

AIアライメント

X risk

S risks

合理主義コミュニティ

効果的利他主義

長期主義

TESCREAL

項目

倉庫

おすすめ