なぜ「もう一回だけ」が止まらないのか──脳が報酬を予測するとき

依存・衝動・強迫習慣衝動報酬系行動変容

タグ一覧を見る

スマホをもう一回だけ、お菓子をもう一つだけ──止まらない「もう一回」の裏には、ドーパミンの報酬予測誤差がある。シュルツの神経科学から衝動の仕組みを解く第1回。

心理アーカイブ

心理アーカイブの読み方

テーマ: 依存・衝動・強迫

この領域は AI の販売導線から切り離し、読み方ガイドとテーマ別アーカイブを優先しています。必要に応じて近いシリーズから読み進めてください。

習慣衝動報酬系行動変容

心理アーカイブを見る

「もう一回だけ」が止まらないのは意志が弱いからではありません。脳の報酬システムが「予測と現実の差分」に反応するしくみが、あなたの手を動かし続けている──その構造を神経科学から解き明かします。

「もう一回だけ」の正体

夜の11時。明日は朝が早いとわかっている。歯も磨いた。布団に入る準備は整っている。──なのに、手元のスマートフォンでSNSのフィードをスクロールしている。ひとつ投稿を読み、次の投稿が目に入り、指がもう一度滑る。「あと一つだけ見たら寝よう」──そう思ってから、もう20分が経っている。

あるいは、仕事帰りのコンビニ。棚の前で「今日は買わない」と決めていたはずのチョコレートに手が伸びる。レジに向かいながら「明日からは本当にやめよう」と心の中でつぶやく。帰宅して包みを開け、ひとかけら口に含んだ瞬間、もうひとかけらが欲しくなる。気がつけば板チョコは半分消えている。

「もう一回だけ」は、あらゆる場所に姿を現します。SNSのスクロール、動画サイトの「次の動画」、ゲームの「もう1ステージ」、ネットショッピングの「ついで買い」、深夜のスナック。──止める理由はいくらでもある。時間がない、体によくない、お金がもったいない。理屈は完全にわかっている。それでも止まらない。

こういうとき、人は自分をこう裁きます。「意志が弱い」「自制心がない」「大人なのにみっともない」。──しかし、「もう一回だけ」が止まらないのは、性格の欠点ではありません。脳のある非常に精巧なシステムが、あなたが意識する前に「もう一回」を実行するよう駆動しているのです。そのシステムの名前は、報酬予測誤差（reward prediction error）。まず、この仕組みを一から見ていきましょう。

サルの脳が教えてくれたこと──シュルツの実験

1990年代、スイス出身の神経科学者ウルフラム・シュルツは、サルの中脳にあるドーパミンニューロンの活動を記録する実験を行いました。実験は単純です。サルにランプを見せ、そのあとにジュースを与える。繰り返しのなかで、ドーパミンニューロンがいつ、どのように発火するかを観察する。

最初の段階──ジュースが予期せず口に入ったとき──ドーパミンニューロンは強く発火しました。「予想していなかった良いことが起きた」。脳はこの瞬間、いわば驚きの信号を放つのです。

ところが、学習が進むとパターンが変わります。サルが「ランプが光ったらジュースがもらえる」と学習した後、ドーパミンの発火タイミングはジュースそのものではなく、ランプが光った瞬間に移動しました。ジュースを受け取った瞬間のドーパミン発火は、もうほとんど起きない。──報酬を「予測」できるようになったからです。

さらに決定的なのが、三番目のパターンです。ランプが光ったのに、ジュースが来なかった。そのとき、ジュースが届くはずだったタイミングで、ドーパミンニューロンの活動はベースラインを下回って低下した。「来るはずだったのに来なかった」──この期待と現実の差分が、ネガティブな信号として脳に刻まれたのです。

シュルツが1997年の論文で定式化したこの発見は、報酬予測誤差（RPE: reward prediction error）と呼ばれます。ドーパミンニューロンが発火する基準は、「報酬があったか」ではなく、「予測と現実がどれだけズレたか」です。予測より良ければドーパミンが放出され、予測通りなら何も起きず、予測より悪ければドーパミンが低下する。

「もう一回」の引力の正体

このモデルを日常に引き戻しましょう。SNSのフィードをスクロールしているとき、指を動かすたびに「次に何が出てくるか」を脳は予測しています。しかし、投稿の内容は毎回異なる。面白い投稿が出るかもしれないし、退屈な広告が出るかもしれない。──この不確実性が鍵です。

報酬予測誤差モデルにおいて、もっともドーパミンが活発に放出されるのは、報酬が不確実なときです。「次は面白いかもしれないし、面白くないかもしれない」──この曖昧さが、脳の報酬システムを最大限に稼働させ続ける。予測を確定させるために、指がもう一度スクロールする。結果が出る。予測が外れた（思わぬ面白い投稿が出た）瞬間にドーパミンが放出され、快の信号が走る。そしてまた、次の不確実な結果を確かめるために手が動く。

重要なのは、ドーパミンの役割は「快楽」そのものではなく、「もう一度確認したい」「もう一回やりたい」という動機づけだということです。神経科学者ケント・ベリッジは、ドーパミンが司るのは快楽（liking）ではなく欲求（wanting）であると区別しました。つまり、「楽しい」と感じていないのに「やめられない」という状態は、脳科学的にまったく矛盾していない。ドーパミンは「楽しいからもう一回」ではなく、「次を確かめたいからもう一回」と脳を駆動しているのです。

深夜にSNSをスクロールしながら「別に楽しくないのにやめられない」と感じたことがある人は、この区別を思い出してください。あなたは快楽に溺れているのではない。脳の予測確認システムが、次の一回を要求し続けている。その要求は意識的な判断より速く、意志の介入が間に合わないスピードで手を動かしている。

「期待」と「結果」が離れるほど脳は走る

報酬予測誤差にはもう一つ、見逃せない性質があります。ドーパミンの放出量は「期待と結果の差」に比例するという点です。

たとえば、毎朝決まったカフェで同じコーヒーを注文する場面を想像してください。味は予測通り。ドーパミンはほぼ放出されない。しかし、たまたま入った知らないカフェで予想を超える美味しいラテが出てきたら──「予測より良かった」というポジティブな報酬予測誤差が発生し、強いドーパミン放出が起きます。翌日、そのカフェの前を通ったとき、行きたいという衝動が浮かぶ。脳がキューを学習したのです。

逆に、期待して行ったレストランが失望だったとき。「予測より悪い」のネガティブな報酬予測誤差が走り、不快なシグナルが脳に刻まれる。──しかし、不確実な場面では「次は良いかもしれない」という期待が消えないため、ネガティブな誤差すらも「もう一度確かめたい」の駆動力になり得ます。

この「期待と結果の距離がドーパミンの燃料になる」というメカニズムが、日常のさまざまな場面で「もう一回」を生み出しています。ガチャの1%の当たり、SNSの「バズるかもしれない」投稿、ネットショッピングのタイムセール──報酬が大きいか小さいかではなく、結果が不確実であること自体が脳を走らせる燃料なのです。

「慣れ」がループを加速させるメカニズム

報酬予測誤差にはもう一つ、「もう一回」を止めにくくする特性があります。それは「慣れ」による閾値の上昇です。

シュルツの実験を思い出してください。サルがジュースを予測できるようになると、ジュースそのものではドーパミンは発火しなくなりました。これは日常でも同じことが起きます。最初は面白かったSNSの投稿も、同じようなパターンを見続けると、脳は「このくらいのものが来るだろう」と予測を更新する。予測通りの結果では、もうドーパミンは出ない。快を感じなくなる。──刺激への「慣れ（habituation）」です。

しかし、ドーパミンが出なくなったからといって、行動が止まるとは限りません。「予測通りの結果ではドーパミンが出ない」ことは、裏を返せば「予測を超える結果」を脳が求め始めるということです。量が増える。頻度が上がる。より刺激の強いコンテンツを探す。──これが、行動がエスカレートする神経科学的メカニズムです。

板チョコがひとかけらで足りなくなるのも、ゲームのステージをもう一つ進めたくなるのも、ネットショッピングのカートにもう一品追加してしまうのも、すべて同じ構造をたどっています。快楽そのものが増えているのではなく、「同じ快楽を得るためのハードル」が上がっている。脳の予測が更新され続けるかぎり、このループには自然な「止まりどころ」がない。

日常での「慣れ」を一つ、具体的に見てみましょう。動画配信サービスで新しいドラマを観始めたとき、最初の数話は先の展開が予測できないため強い引きがあります。しかし5話、6話と見進めると、パターンが読めてくる。「どうせ主人公はこうするだろう」と予測できるようになる。──満足度は下がる。しかし「もう少し見れば何か起きるかもしれない」という不確実性への期待が、指を「次のエピソード」ボタンに伸ばす。気がつけば深夜2時。2時間前から「もう面白くない」と感じていたのに止められなかった。──快楽の消失と行動の持続の乖離。これが報酬予測誤差と慣れの共演です。

キュー──ループの「起動スイッチ」

報酬予測誤差がループの「エンジン」だとすれば、そのエンジンを始動させるスイッチがあります。心理学ではキュー（cue）と呼ばれるもの──ある行動を引き起こすきっかけ、トリガーです。

シュルツの実験では、ランプがキューでした。ランプが光る→ジュースが来ると学習したサルは、ランプの光を見た瞬間にドーパミンが発火した。──日常における私たちのキューは、もっと複雑で、もっと至るところに仕掛けられています。

スマートフォンの通知音やバナーは、もっとも分かりやすいキューです。ポケットの振動を感じた瞬間、「何か来たかもしれない」という予測が脳内で立ち上がる。通知を確認し、そのままアプリを開き、フィードをスクロールし始める──ループの起動です。しかしキューは音や光だけではありません。時間もキューになります（毎晩23時にベッドでスマホを開く習慣があるなら、23時そのものがキュー）。場所もキューです（コンビニの前を通るとお菓子が欲しくなる）。感情もキューになります（退屈を感じた瞬間にSNSを開く）。さらには行動の連鎖も──食事が終わるとデザートが欲しくなる、仕事を終えると一杯飲みたくなる──前の行動が次の行動のキューとして機能します。

ウッドとニール（2007）は、習慣行動の大半が意識的な意思決定を経由せずにキューによって自動的に起動されると論じました。彼らの調査によれば、日常の行動の約43%が「いつもの場所」で「いつものように」実行されており、そのあいだ人は別のことを考えている。つまり、「もう一回やろう」と決断しているのではなく、キューが発生した時点で行動はほぼ自動的に実行されている。意志が介入できるのは、行動がすでに始まったあとです。

だから「意志が弱い」という自己診断は、構造的にほぼ誤りなのです。意志が出て行けるタイミングには、すでに行動が始まっている。それはまるで、列車がホームを離れた後に「止まれ」と叫ぶようなもの。列車が悪いのでも、叫ぶあなたが弱いのでもない。──タイミングの問題です。この話は、第2回の「意志力」の検証でさらに掘り下げていきます。

なぜこの仕組みが存在するのか

ここまで読むと、報酬予測誤差のシステムはまるで「人間を罠にかける」ために設計されたように見えるかもしれません。しかし進化的な視点から見れば、このシステムは生存に不可欠なものでした。

食料が不確実だった環境で、「食べ物があるかもしれない場所にもう一度行ってみよう」という動機づけは生死を分けた。新しい水源、新しい果実の木、新しい狩り場を探索する衝動がなければ、私たちの祖先は飢えていた。報酬予測誤差は、不確実な環境のなかで報酬を効率よく探索するためのアルゴリズムとして進化した。

問題は、このアルゴリズムが設計された環境と、現代の環境がまるで違うことです。かつては「不確実な報酬源」にたどり着くまでに多大な身体的コストがかかった。歩いて、探して、時には危険を冒して。しかし現代では、スマートフォンの画面を指でなぞるだけで不確実な報酬（新しい投稿、新しい通知、新しい商品）に無限にアクセスできる。コストがほぼゼロになった環境で、報酬予測誤差のアルゴリズムは際限なく稼働し続ける。──これが「もう一回だけ」が現代において止まらない、進化的な背景です。

この不一致を「進化的ミスマッチ（evolutionary mismatch）」と呼びます。人間の脳は数十万年の進化を通じて形成されましたが、スマートフォンが普及したのは2010年代のわずか十数年。脳のハードウェアは狩猟採集時代のまま、ソフトウェア環境だけが激変した。その結果、かつて生存に有利だった「もっと探索しろ」というアルゴリズムが、深夜のSNSスクロールや衝動買いという形で際限なく発動する。──脳は壊れたのではなく、設計通りに働いている。ただ、設計が想定した環境はもうここにはない、というだけです。

このシリーズで見ていくこと

今回わかったことをまとめると──「もう一回だけ」が止まらないのは、あなたの意志が弱いからでも、性格に問題があるからでもない。脳の報酬予測誤差というシステムが、不確実な報酬に対して「次を確かめろ」というシグナルを発し続けている。このシグナルは意識的な意思決定よりも速く、行動を自動的に起動するキューと結びつくことで、「気がついたらやっていた」という状態を生む。

これは第1回の入口にすぎません。このシリーズで、「やめたいのにやめられない」という現象のさまざまな側面を見ていきます。

第2回では、こうした状況で必ず持ち出される「意志力」という概念そのものを検証します。「意志が弱い」とは本当はどういうことなのか。科学は意志力をどうモデル化し、そのモデルはどこまで正しく、どこで崩れたのか。

第3回では、やめられなかったあとに必ずやってくる感情──罪悪感と自責──が、じつは次の「やめられない」を引き起こすループの一部であることを見ていきます。

そして第4回以降、夜のスマホ、ストレスと習慣の関係、SNSやガチャの設計、「やめよう」という決意が逆効果になる逆説、再発の心理学──それぞれの角度から、脳と行動のループに光を当てていきます。

「なぜ」がわかることは、それだけでループの中に小さな隙間を作ります。次に「もう一回だけ」が起きたとき、その衝動をほんの一瞬だけ客観的に眺められるかもしれない。──その一瞬が、ループ全体を変える起点になることがあります。