權(quán)威+AI,百度百科打出王炸

消滅大模型幻覺,它是最大的利器。

作者|文昌龍

編輯|楊舟

“未來我們得到的內(nèi)容可能是AI生產(chǎn)的東西占主導(dǎo),這些東西又成為新的語料喂給AI,然后AI又會加工AI生產(chǎn)的東西,不斷反復(fù)。這就會出現(xiàn)‘遞歸效應(yīng)’,出現(xiàn)尼采講的‘永恒循環(huán)’。”

中國人民大學(xué)新聞學(xué)院教授劉海龍在采訪中指出,AI帶來的信息傳播負(fù)面效應(yīng)日益顯現(xiàn)。這一現(xiàn)象并非難以察覺,越來越多的人已開始感受到AI對信息傳播的顛覆性影響。

隨著AI信息循環(huán)的加劇,信息傳播的失真也愈發(fā)嚴(yán)重。打破這一惡性循環(huán),一個解決思路是,牢牢把控源內(nèi)容。換句話說,打破AI大模型“幻覺”鏈條的關(guān)鍵,在于保證訓(xùn)練數(shù)據(jù)的質(zhì)量與權(quán)威性。

根據(jù)公開信息,大型語言模型(LLM)數(shù)據(jù)集可以簡單的概括為通用預(yù)訓(xùn)練語料庫和特定領(lǐng)域預(yù)訓(xùn)練語料庫,前者的來源也就是網(wǎng)頁、語言文本、書籍、學(xué)術(shù)資料、代碼、平行語料庫、社交媒體和百科全書。

其中,百科作為訓(xùn)練數(shù)據(jù)集的核心組成部分,已經(jīng)成為AIGC時代數(shù)據(jù)權(quán)威性的關(guān)鍵。

維基百科與百度百科等平臺已經(jīng)意識到這一點,并紛紛采取措施,確保數(shù)據(jù)的可信度與權(quán)威性。作為全球詞條數(shù)量最多的中文百科全書,百度百科近期也有了進(jìn)一步的舉措。

12月27日,在百度百科在和中國科協(xié)、中國科學(xué)院大學(xué)聯(lián)合舉辦的史記2024·科學(xué)百科100詞發(fā)布會上,發(fā)布了「繁星計劃」,將AI與知識內(nèi)容的融合推向了新的高度。這一舉措并非簡單地像維基百科排斥AI,因為AI本身也具備創(chuàng)造力,更像是在AI與權(quán)威之間架起了一座橋梁。

毫無疑問,在不廣為注意的領(lǐng)域,百科的內(nèi)容保衛(wèi)戰(zhàn)已經(jīng)拉開帷幕。

01?消滅大模型幻覺,百科是利器

百科的重要性在于,它是AI是否生成幻覺的訓(xùn)練數(shù)據(jù)集源頭之一。

大模型訓(xùn)練數(shù)據(jù)集,是指用來訓(xùn)練大型人工智能模型(如GPT、文心一言等大語言模型)的大量數(shù)據(jù)集合,對大模型的性能和表現(xiàn)至關(guān)重要。

打個比方,如果將大模型比作一個學(xué)生,那么訓(xùn)練數(shù)據(jù)集便是教材與練習(xí)題。教材的質(zhì)量與練習(xí)題的數(shù)量和種類,直接決定了學(xué)生的學(xué)習(xí)效果與知識掌握程度。一個優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)集,能夠幫助大模型這個“學(xué)生”走得更遠(yuǎn),提供更有價值的服務(wù)。

大模型的訓(xùn)練數(shù)據(jù)集來源廣泛,因此質(zhì)量參差不齊,優(yōu)質(zhì)數(shù)據(jù)源往往需要付出不小的代價。

以O(shè)penAI為例,2024年5月22日,OpenAI宣布與新聞集團(tuán)達(dá)成多年期協(xié)議,獲得其主要新聞和信息出版物的當(dāng)前與存檔內(nèi)容,包括《華爾街日報》《巴倫周刊》《紐約郵報》《泰晤士報》《太陽報》等十余家知名媒體。

這一切背后,OpenAI支付了不小的代價。根據(jù)外媒報道,該交易為期五年,交易金額可能超過2.5億美元(約合人民幣18.1億元)。

OpenAI也提到了這筆交易的原因,“最終目標(biāo)是讓人們能夠根據(jù)可靠的信息和新聞來源做出明智的選擇。”

當(dāng)然,如果其他大模型機(jī)構(gòu)不像OpenAI那樣財力雄厚,那么最常見的選擇便是單單使用一些通用的預(yù)訓(xùn)練語料庫和特定領(lǐng)域的語料庫,其中百科語料庫尤為普遍。

最常見的百科語料庫包括維基百科和百度百科,它們以免費、開源、多語言支持和高文本價值為特點。這些知識經(jīng)過人工精心收集,準(zhǔn)確性較高,能夠幫助模型建立對各類事物的基本認(rèn)知,如歷史事件、科學(xué)概念等。

由于這些百科內(nèi)容易于獲取,機(jī)構(gòu)通常會選擇特定語言的百科數(shù)據(jù)進(jìn)行爬取和過濾,作為預(yù)訓(xùn)練語料庫的一部分。因此,它們在預(yù)訓(xùn)練語料庫中的出現(xiàn)頻率較高,是大語言模型(LLMs)知識庫的基礎(chǔ)。

今年年初,斯坦福大學(xué)的研究人員發(fā)布了WikiChat,宣稱這是首個幾乎不產(chǎn)生幻覺的聊天機(jī)器人,他們的信心來源于基于維基百科的知識進(jìn)行訓(xùn)練。

然而,隨著AI進(jìn)程的加速,百科也不能再百分百保證其準(zhǔn)確性。即使是知名平臺,依然存在信息錯誤或不完整的情況。

可見,要解決大模型幻覺的問題,必須保證其訓(xùn)練數(shù)據(jù)集的質(zhì)量和權(quán)威性。尤其是在百科類內(nèi)容中,內(nèi)容的準(zhǔn)確性和專業(yè)性是大模型穩(wěn)定輸出的基礎(chǔ)。

02?如何保證百科的權(quán)威

目前,維基百科為應(yīng)對人工智能生成內(nèi)容帶來的挑戰(zhàn),推出了維基人工智能清理項目(WikiProject AI Cleanup),并強(qiáng)調(diào)內(nèi)容的可驗證性:要求編輯在文章歷史中注明是否使用了大型語言模型(LLM)。

作為百科的另一極,百度百科早在2006年就開始為百度搜索引擎提供知識源。公開資料顯示,截至2024年12月,百度百科已經(jīng)收錄了超2860萬個詞條,參與詞條編輯的網(wǎng)友超過795萬人,幾乎涵蓋了所有已知的知識領(lǐng)域。

百度百科擁有一支專家團(tuán)隊,用來確保所有內(nèi)容的準(zhǔn)確性與權(quán)威性。畢竟,在AI幻覺出現(xiàn)之前,虛假信息和利用百科進(jìn)行商業(yè)宣傳的行為已影響了百科產(chǎn)品的公共性與中立性。

回顧過去,百度百科在提升內(nèi)容專業(yè)性方面做出了努力,包括組建更專業(yè)的編輯團(tuán)隊、加強(qiáng)內(nèi)容審核力度,以及與行業(yè)機(jī)構(gòu)合作等。

例如,2009年,百度百科推出了權(quán)威共建專項活動,聯(lián)合各行業(yè)專家和機(jī)構(gòu),共同構(gòu)建專業(yè)品類詞條;2014年,在衛(wèi)健委的指導(dǎo)下,百度百科聯(lián)合打造了“權(quán)威醫(yī)學(xué)科普傳播網(wǎng)絡(luò)平臺”;2015年,百度百科與中國科協(xié)達(dá)成合作,共同完善科學(xué)類科普詞條的準(zhǔn)確性。

專家團(tuán)隊的參與有效抵消了大眾編輯帶來的非專業(yè)性問題,但如今進(jìn)入AIGC時代,百度百科在權(quán)威性樹立上拿出許多砝碼。

從外部信息來看,為了進(jìn)一步提升百度百科的權(quán)威性,百度的策略是“以AI規(guī)范AI”。即在依賴人工編輯和專家審核的基礎(chǔ)上,結(jié)合AI技術(shù),通過智能體等手段,進(jìn)一步提升內(nèi)容的準(zhǔn)確性和智能化水平。

核心動作之一是這次的“繁星計劃”,該計劃可概括為四大特色:專業(yè)標(biāo)識、編輯特權(quán)、技術(shù)共享和精準(zhǔn)流量。

以“專業(yè)標(biāo)識”為例,當(dāng)用戶在百度搜索時,專家的個人詞條會以專門標(biāo)識的形式展示,彰顯其權(quán)威性。在信息泛濫的時代,百度百科通過識別真正的專家和優(yōu)質(zhì)內(nèi)容,給予專業(yè)標(biāo)識,幫助大眾分辨真假。

過去,百度通過參考資料來定義知識,這雖然精準(zhǔn),卻也誤傷了不少專業(yè)內(nèi)容,許多專業(yè)人士想要參與,但由于工具不便、門檻過高,常常被排除在外。如今,百度去除了這些繁瑣的流程,為專家提供了編輯特權(quán),降低了參與的門檻。

通過“繁星計劃”,百度百科還將整合百度的AI技術(shù),包括文心智能體平臺等,通過智能體和數(shù)字人技術(shù),幫助專家免費制作數(shù)字分身,既降低成本,又提高產(chǎn)量,使科普變得更加容易和權(quán)威。

此外,百度百科還將立足于百度搜索,提供億級的精準(zhǔn)流量分發(fā),助力知識的全民普惠。據(jù)透露,“繁星計劃”將覆蓋 10 萬個權(quán)威專家,覆蓋超100萬知識內(nèi)容。有關(guān)人士表示,這或許是業(yè)內(nèi)規(guī)模最大的 AI 科普計劃。

百度百科正在利用AI技術(shù)架起與權(quán)威之間的一道橋梁,試圖為解決AI幻覺問題、樹立權(quán)威科普提供一種解決方案。

03?從圖文到AI時代,百度百科始終手握王牌

一個現(xiàn)象是,百度百科頻繁被國內(nèi)媒體作為資料來源引用,既表明其權(quán)威性已廣泛認(rèn)可,更重要的是,這種權(quán)威性逐漸被潛移默化地接受,成為了百度的一張核心底牌。

一方面,作為簡體中文互聯(lián)網(wǎng)體量最大、用戶最廣泛的搜索引擎,百度是大多數(shù)網(wǎng)民查找信息的首選平臺。百度搜索對百度百科賦予了更高的權(quán)重,使得其內(nèi)容更易被用戶找到,逐步培養(yǎng)了用戶的依賴習(xí)慣。另一方面,百度百科作為一款精準(zhǔn)總結(jié)信息的產(chǎn)品,其權(quán)威性始終有保障。

因此,百度百科的內(nèi)容權(quán)威性正逐漸成為百度搜索的核心護(hù)城河,不僅有效消除AI幻覺,也增強(qiáng)了其在激烈競爭中的優(yōu)勢。

這種權(quán)威性的塑造并非一蹴而就,而是經(jīng)過長期的戰(zhàn)略規(guī)劃與持續(xù)打磨。從時間軌跡來看,無論處于何種內(nèi)容時代,百度百科始終堅守權(quán)威性門檻,并在不同階段不斷強(qiáng)化這一特質(zhì)。

回顧百度百科的發(fā)展歷程,可劃分為三個具有標(biāo)志性的階段:

1.0階段:處于移動互聯(lián)網(wǎng)尚未普及的圖文時代,百度百科通過廣泛的知識收集與收集,為百度搜索提供大量可靠的知識內(nèi)容,成為用戶信賴的知識源,奠定了其權(quán)威性基礎(chǔ)。

2.0階段:隨著移動互聯(lián)網(wǎng)的興起,百度百科進(jìn)入視頻化時代。以秒懂百科等創(chuàng)新功能為標(biāo)志,視頻形式極大豐富了知識的呈現(xiàn)方式,使其能夠以更直觀、生動的方式觸達(dá)用戶,進(jìn)一步提升了其權(quán)威性。

3.0階段:在AI技術(shù)的浪潮下,百度百科結(jié)合文心大模型等百度AI技術(shù)體系,融入智能體和數(shù)字人等先進(jìn)技術(shù),實現(xiàn)知識生產(chǎn)與傳播的智能化升級。

近期推出的繁星計劃便是這一階段的重要成果,通過AI優(yōu)化知識服務(wù),提升了百度百科的權(quán)威性,并為百度搜索提供了更強(qiáng)的支持。

未來,隨著百度百科AI化進(jìn)程的不斷深入,它將不僅僅是一個知識平臺,還將成為推動知識生態(tài)發(fā)展的智能工具。隨著內(nèi)容權(quán)威性的進(jìn)一步增強(qiáng),特別是在AI技術(shù)的深度融合下,百度百科或?qū)⑦M(jìn)入新的發(fā)展階段。

特別聲明:本文為合作媒體授權(quán)專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)

? 版權(quán)聲明
評論 搶沙發(fā)
加載中~
每日一言
不怕萬人阻擋,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender