目前,大語言模型逐漸成為文學(xué)、法律、醫(yī)學(xué)、自然科學(xué)研究等領(lǐng)域中不可或缺的工具。然而,在應(yīng)用過程中,大語言模型常會出現(xiàn) “幻覺”現(xiàn)象——可能生成看似合理但實(shí)際并不準(zhǔn)確或不真實(shí)的信息。比如,在新聞領(lǐng)域,大語言模型可能會編造出完全不存在的新聞事件;在法律領(lǐng)域,它可能引用虛構(gòu)的法律條文和案例;在醫(yī)學(xué)領(lǐng)域,它可能會提供錯誤的診療建議,甚至危及患者生命安全。鑒于此,用戶在使用這些大語言模型輸出的答案時不要盲目相信,而應(yīng)對每次輸出的答案進(jìn)行仔細(xì)核實(shí)和驗(yàn)證。
英國牛津大學(xué)研究團(tuán)隊(duì)近日在國際學(xué)術(shù)期刊《自然》上發(fā)表論文,嘗試解決大語言模型輸出中的這種“幻覺”現(xiàn)象,從而提高輸出的可信性。通過評估大語言模型在特定提示詞下生成內(nèi)容時的不確定性,可計(jì)算出該模型的困惑程度。作為一種警示,它提醒用戶或模型自身采取額外的循證措施,以確保更準(zhǔn)確地輸出答案。
為了更準(zhǔn)確衡量模型的困惑程度,該論文引入了“語義熵”概念來計(jì)算輸出的不確定性。所謂語義熵,實(shí)際上是信息熵的一種,用于衡量一個物理系統(tǒng)中所包含的信息量。
為了簡單理解“熵”所表示的意思,我們可以想象一個人在岔路口時作出判斷的情形:如果這個人向左走或向右走的概率相同,那么這是“熵”的最大情況,代表信息不確定性的極大值,說明這個人對前方的路完全沒有把握;而如果這個人總是選擇向左走,從不選擇向右走,則這是“熵”的最小情況,代表信息不確定性的極小值,說明這個人對前方的路完全有把握。
然而,當(dāng)涉及語言時,情況會變得更加復(fù)雜。相同的意思可以通過不同的表達(dá)方式來傳達(dá)。例如, “埃菲爾鐵塔的位置在哪里”,答案可以是“巴黎”“在巴黎”或“在法國首都”。為了解決這種語言本身導(dǎo)致的不確定性,研究人員將意義相同的回答進(jìn)行聚類,從而形成一個統(tǒng)一的輸出答案,進(jìn)而計(jì)算出聚類后模型輸出答案的“熵”。如果模型輸出的句子都是表達(dá)相同語義的句子,那么語義熵值就會較低,這意味著模型對于自己的輸出答案非常確定;反之, 語義熵則會很高,表明模型對自己輸出的答案感到不確定。
利用語義熵概念,研究人員對包括GPT-4和LLaMA2在內(nèi)的多個大語言模型進(jìn)行深入研究。結(jié)果顯示,語義熵在所有模型和數(shù)據(jù)集上的表現(xiàn)都非常出色,是目前用于評估模型困惑程度的最佳方法,能有效識別出大語言模型是否在“胡言亂語”。另外,通過對大語言模型進(jìn)行反復(fù)提問,我們可以有效地定量計(jì)算出它對問題答案的不確定程度,并通過拒絕回答不確定的問題來提高輸出答案的整體準(zhǔn)確度。
語義熵的優(yōu)勢顯而易見,它不需要對大語言模型進(jìn)行改動或重新訓(xùn)練,也不需要額外的成本就可立即應(yīng)用于目前所有的大語言模型。此外,在設(shè)計(jì)大語言模型時,我們可以將語義熵作為參考指標(biāo),在遇到可能不確定的答案時可以選擇拒絕回答或嘗試進(jìn)行聯(lián)網(wǎng)搜索,從而提高答案的可靠性。語義熵甚至可以用于人類也不知道答案的未知問題,定量判斷大語言模型輸出答案的確定性。
值得注意的是,利用語義熵來判斷大語言模型輸出的困惑程度,并不等同于對輸出正確與否的判斷。換句話說,大語言模型輸出答案具有很低的語義熵,只意味著它在其已有的訓(xùn)練數(shù)據(jù)基礎(chǔ)上確信自己答案是正確的。這表明大語言模型有極高概率生成單一語義的句子,但這些句子是否實(shí)際正確仍無法完全保證。
盡管如此,這項(xiàng)研究無疑是在實(shí)現(xiàn)完全機(jī)器自主語言生成的道路上邁出了重要一步,為大語言模型理解其自信度提供了新的視角,給未來發(fā)展帶來了無限可能。
(作者王琳琳系中國科普作家協(xié)會會員、吉林省科學(xué)技術(shù)工作者服務(wù)中心助理研究員,劉傳波系吉林省科普創(chuàng)作協(xié)會會員、中國科學(xué)院長春應(yīng)用化學(xué)研究所博士)
歡迎掃碼關(guān)注深i科普!
我們將定期推出
公益、免費(fèi)、優(yōu)惠的科普活動和科普好物!