罕見激活多巴胺反應(yīng)。 A圖:均勻分布的獎勵(左邊)與正態(tài)分布獎勵(右邊)。 B圖:多巴胺神經(jīng)元對平均分布的獎勵(綠色)和正態(tài)分布獎勵(洋紅色)產(chǎn)生的反應(yīng)。圖片來源:Rothenhoefer等
以往的研究不斷強調(diào)多巴胺神經(jīng)元在獎勵學(xué)習(xí)中的關(guān)鍵作用。獎勵學(xué)習(xí)指的是,人類和其他動物完成特定動作或提供某個問題正確、預(yù)期的答案后得到獎勵,從而獲得不同信息、技能或習(xí)慣的過程。
如果個體獲得的獎勵比預(yù)期更好,多巴胺神經(jīng)元就會被激活。與此相反,如果獲得的獎勵比預(yù)期的差,多巴胺神經(jīng)元就會被抑制。這種特別的活動模式類似于已知的“獎勵預(yù)測誤差”,它本質(zhì)上是實際獲得的獎勵與預(yù)測之間的差異。
匹茲堡大學(xué)(University of Pittsburgh)的研究人員最近完成了一項關(guān)于獎勵頻率與獎勵預(yù)測誤差如何影響多巴胺信號的研究。他們發(fā)表在《自然·神經(jīng)科學(xué)》(Nature Neuroscience)的論文為與多巴胺相關(guān)的獎勵學(xué)習(xí)的神經(jīng)基礎(chǔ)提供了全新的、有價值的視角。
參與研究的研究人員之一William R. Stauffe博士說:“獎勵預(yù)測誤差對動物學(xué)習(xí)和機器學(xué)習(xí)來說很重要。然而,在經(jīng)典的動物學(xué)習(xí)和機器學(xué)習(xí)理論中,方程式中‘預(yù)測獎勵’部分僅僅就是以往結(jié)果的平均值。盡管這些預(yù)測都很有用,但預(yù)測平均值和可以反應(yīng)不確定性的更加復(fù)雜的統(tǒng)計值才更有用處?!?/p>
2005年劍橋大學(xué)神經(jīng)科學(xué)教授、Wellcome主要研究員、Stauffer的博士后導(dǎo)師Wolfram Schultz的研究啟發(fā)了該研究的研究人員。2005年的研究指出,基于Schultz和同事設(shè)定的最大與最小結(jié)果的標(biāo)準(zhǔn)差范圍,多巴胺反應(yīng)的獎勵預(yù)測誤差能夠正態(tài)化。
Stauffer說:“研究是突破性的,因為它表明神經(jīng)預(yù)測的過程實際上反映了不確定性。然而,有幾種不同的方式能夠調(diào)節(jié)不確定性,而我猜測它們在心理學(xué)意義上不是等同的?!?/p>
Schultz與同事在研究中應(yīng)用的范圍調(diào)節(jié)(為了改變標(biāo)準(zhǔn)差)使得每個可能的獎勵具有相同的預(yù)測可能。
Stauffer說:“我們好奇的是,如果設(shè)定固定的極值,但改變范圍內(nèi)的概率分布,那么多巴胺神經(jīng)元會怎么反應(yīng)。相應(yīng)的,我們研究的主題是,弄清楚多巴胺神經(jīng)元是否對概率分布的形狀具有敏感性?!?/p>
中腦冠狀面標(biāo)記染色的多巴胺神經(jīng)元。這是研究人員記錄信號的大腦區(qū)域。 (圖片來源:Rothenhoefer等)
實驗中,Stauffer與同事使用了兩種不同的視覺提示,預(yù)測來自兩種不同“獎勵概率分布”的獎勵情況。兩種獎勵的實際分布包含三種類型的獎勵,名為小滴、中滴、大滴的果汁。
其中一種獎勵的概率分布類似正態(tài)分布,多數(shù)情況均出現(xiàn)中間值(比如,中滴果汁),而極少數(shù)情況下出現(xiàn)小滴和大滴的果汁。另一方面,第二種獎勵的概率分布,遵循“均勻分布”,小滴、中滴和大滴的果汁出現(xiàn)概率相等(比如,出現(xiàn)次數(shù)相同)。
Stauffer和同事讓猴子觀察到不同概率分布相關(guān)的視覺提示,并使用電極記錄了猴子的多巴胺神經(jīng)元反應(yīng)。他們還記錄到猴子實際接受概率分布獎勵時的多巴胺神經(jīng)元反應(yīng)。
值得注意的是,研究人員觀察到,給予低頻率獎勵(即罕見獎勵)能增強猴子大腦的多巴胺反應(yīng)。相比之下,相同分量但出現(xiàn)頻率更高的獎勵激起的多巴胺反應(yīng)更弱。
Stauffer說:“我們觀察到的現(xiàn)象提示,預(yù)測性的神經(jīng)元信號反應(yīng)了預(yù)測值附近的不確定性程度,而不僅限于預(yù)測值本身。這還意味著大腦主要獎勵學(xué)習(xí)系統(tǒng)中的一種功能是預(yù)測不確定性,并且有可能教會大腦下部結(jié)構(gòu)預(yù)測不確定性。很少有其他的神經(jīng)系統(tǒng)擁有這樣直接的證據(jù)來證實天然的神經(jīng)元反應(yīng)算法的存在,這些迷人的結(jié)果提示一種新的神經(jīng)算法?!?/p>
研究團隊做出的研究強調(diào)了獎勵頻率對獎勵學(xué)習(xí)時多巴胺神經(jīng)元反應(yīng)的影響。這些成果將會啟迪進一步的研究,或許能顯著提升當(dāng)前對獎勵學(xué)習(xí)的神經(jīng)機制的理解。
最終,研究人員想要探索對概率的看法如何幫助在模棱兩可(當(dāng)結(jié)果概率未知)的情況下做出選擇。在這些特定的抉擇情形下,人類總的來說是基于自身對獎勵概率分布的認識,被迫做出決策。
Stauffer說:“這項研究只是理解大腦如何編碼來理解主觀概率分布,以及這些認識以何種形式出現(xiàn)的第一步。通過手頭已有的結(jié)果,我們能回過頭去研究大腦的選擇。不過,我估計,這些結(jié)果將會有更加廣泛的應(yīng)用,對生物學(xué)的和人工的智能學(xué)習(xí)系統(tǒng)具有重要意義?!?/p>
圖片來源:Pixabay
作者:Ingrid Fadelli
翻譯:陳振翀
審校:張哲
引進來源:Medical Xpress
關(guān)注【深圳科普】微信公眾號,在對話框:
回復(fù)【最新活動】,了解近期科普活動
回復(fù)【科普行】,了解最新深圳科普行活動
回復(fù)【研學(xué)營】,了解最新科普研學(xué)營
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團體定制】,了解最新團體定制活動
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識】,學(xué)習(xí)觀鳥相關(guān)科普知識
回復(fù)【博物學(xué)院】,了解更多博物學(xué)院活動詳情
?