消滅大模型幻覺,它是最大的利器。
作者|文昌龍
編輯|楊舟
“未來我們得到的內容可能是AI生產的東西占主導,這些東西又成為新的語料喂給AI,然后AI又會加工AI生產的東西,不斷反復。這就會出現‘遞歸效應’,出現尼采講的‘永恒循環’。”
中國人民大學新聞學院教授劉海龍在采訪中指出,AI帶來的信息傳播負面效應日益顯現。這一現象并非難以察覺,越來越多的人已開始感受到AI對信息傳播的顛覆性影響。
隨著AI信息循環的加劇,信息傳播的失真也愈發嚴重。打破這一惡性循環,一個解決思路是,牢牢把控源內容。換句話說,打破AI大模型“幻覺”鏈條的關鍵,在于保證訓練數據的質量與權威性。
根據公開信息,大型語言模型(LLM)數據集可以簡單的概括為通用預訓練語料庫和特定領域預訓練語料庫,前者的來源也就是網頁、語言文本、書籍、學術資料、代碼、平行語料庫、社交媒體和百科全書。
其中,百科作為訓練數據集的核心組成部分,已經成為AIGC時代數據權威性的關鍵。
維基百科與百度百科等平臺已經意識到這一點,并紛紛采取措施,確保數據的可信度與權威性。作為全球詞條數量最多的中文百科全書,百度百科近期也有了進一步的舉措。
12月27日,在百度百科在和中國科協、中國科學院大學聯合舉辦的史記2024·科學百科100詞發布會上,發布了「繁星計劃」,將AI與知識內容的融合推向了新的高度。這一舉措并非簡單地像維基百科排斥AI,因為AI本身也具備創造力,更像是在AI與權威之間架起了一座橋梁。
毫無疑問,在不廣為注意的領域,百科的內容保衛戰已經拉開帷幕。
01?消滅大模型幻覺,百科是利器
百科的重要性在于,它是AI是否生成幻覺的訓練數據集源頭之一。
大模型訓練數據集,是指用來訓練大型人工智能模型(如GPT、文心一言等大語言模型)的大量數據集合,對大模型的性能和表現至關重要。
打個比方,如果將大模型比作一個學生,那么訓練數據集便是教材與練習題。教材的質量與練習題的數量和種類,直接決定了學生的學習效果與知識掌握程度。一個優質的訓練數據集,能夠幫助大模型這個“學生”走得更遠,提供更有價值的服務。
大模型的訓練數據集來源廣泛,因此質量參差不齊,優質數據源往往需要付出不小的代價。
以OpenAI為例,2024年5月22日,OpenAI宣布與新聞集團達成多年期協議,獲得其主要新聞和信息出版物的當前與存檔內容,包括《華爾街日報》《巴倫周刊》《紐約郵報》《泰晤士報》《太陽報》等十余家知名媒體。
這一切背后,OpenAI支付了不小的代價。根據外媒報道,該交易為期五年,交易金額可能超過2.5億美元(約合人民幣18.1億元)。
OpenAI也提到了這筆交易的原因,“最終目標是讓人們能夠根據可靠的信息和新聞來源做出明智的選擇。”
當然,如果其他大模型機構不像OpenAI那樣財力雄厚,那么最常見的選擇便是單單使用一些通用的預訓練語料庫和特定領域的語料庫,其中百科語料庫尤為普遍。
最常見的百科語料庫包括維基百科和百度百科,它們以免費、開源、多語言支持和高文本價值為特點。這些知識經過人工精心收集,準確性較高,能夠幫助模型建立對各類事物的基本認知,如歷史事件、科學概念等。
由于這些百科內容易于獲取,機構通常會選擇特定語言的百科數據進行爬取和過濾,作為預訓練語料庫的一部分。因此,它們在預訓練語料庫中的出現頻率較高,是大語言模型(LLMs)知識庫的基礎。
今年年初,斯坦福大學的研究人員發布了WikiChat,宣稱這是首個幾乎不產生幻覺的聊天機器人,他們的信心來源于基于維基百科的知識進行訓練。
然而,隨著AI進程的加速,百科也不能再百分百保證其準確性。即使是知名平臺,依然存在信息錯誤或不完整的情況。
可見,要解決大模型幻覺的問題,必須保證其訓練數據集的質量和權威性。尤其是在百科類內容中,內容的準確性和專業性是大模型穩定輸出的基礎。
02?如何保證百科的權威
目前,維基百科為應對人工智能生成內容帶來的挑戰,推出了維基人工智能清理項目(WikiProject AI Cleanup),并強調內容的可驗證性:要求編輯在文章歷史中注明是否使用了大型語言模型(LLM)。
作為百科的另一極,百度百科早在2006年就開始為百度搜索引擎提供知識源。公開資料顯示,截至2024年12月,百度百科已經收錄了超2860萬個詞條,參與詞條編輯的網友超過795萬人,幾乎涵蓋了所有已知的知識領域。
百度百科擁有一支專家團隊,用來確保所有內容的準確性與權威性。畢竟,在AI幻覺出現之前,虛假信息和利用百科進行商業宣傳的行為已影響了百科產品的公共性與中立性。
回顧過去,百度百科在提升內容專業性方面做出了努力,包括組建更專業的編輯團隊、加強內容審核力度,以及與行業機構合作等。
例如,2009年,百度百科推出了權威共建專項活動,聯合各行業專家和機構,共同構建專業品類詞條;2014年,在衛健委的指導下,百度百科聯合打造了“權威醫學科普傳播網絡平臺”;2015年,百度百科與中國科協達成合作,共同完善科學類科普詞條的準確性。
專家團隊的參與有效抵消了大眾編輯帶來的非專業性問題,但如今進入AIGC時代,百度百科在權威性樹立上拿出許多砝碼。
從外部信息來看,為了進一步提升百度百科的權威性,百度的策略是“以AI規范AI”。即在依賴人工編輯和專家審核的基礎上,結合AI技術,通過智能體等手段,進一步提升內容的準確性和智能化水平。
核心動作之一是這次的“繁星計劃”,該計劃可概括為四大特色:專業標識、編輯特權、技術共享和精準流量。
以“專業標識”為例,當用戶在百度搜索時,專家的個人詞條會以專門標識的形式展示,彰顯其權威性。在信息泛濫的時代,百度百科通過識別真正的專家和優質內容,給予專業標識,幫助大眾分辨真假。
過去,百度通過參考資料來定義知識,這雖然精準,卻也誤傷了不少專業內容,許多專業人士想要參與,但由于工具不便、門檻過高,常常被排除在外。如今,百度去除了這些繁瑣的流程,為專家提供了編輯特權,降低了參與的門檻。
通過“繁星計劃”,百度百科還將整合百度的AI技術,包括文心智能體平臺等,通過智能體和數字人技術,幫助專家免費制作數字分身,既降低成本,又提高產量,使科普變得更加容易和權威。
此外,百度百科還將立足于百度搜索,提供億級的精準流量分發,助力知識的全民普惠。據透露,“繁星計劃”將覆蓋 10 萬個權威專家,覆蓋超100萬知識內容。有關人士表示,這或許是業內規模最大的 AI 科普計劃。
百度百科正在利用AI技術架起與權威之間的一道橋梁,試圖為解決AI幻覺問題、樹立權威科普提供一種解決方案。
03?從圖文到AI時代,百度百科始終手握王牌
一個現象是,百度百科頻繁被國內媒體作為資料來源引用,既表明其權威性已廣泛認可,更重要的是,這種權威性逐漸被潛移默化地接受,成為了百度的一張核心底牌。
一方面,作為簡體中文互聯網體量最大、用戶最廣泛的搜索引擎,百度是大多數網民查找信息的首選平臺。百度搜索對百度百科賦予了更高的權重,使得其內容更易被用戶找到,逐步培養了用戶的依賴習慣。另一方面,百度百科作為一款精準總結信息的產品,其權威性始終有保障。
因此,百度百科的內容權威性正逐漸成為百度搜索的核心護城河,不僅有效消除AI幻覺,也增強了其在激烈競爭中的優勢。
這種權威性的塑造并非一蹴而就,而是經過長期的戰略規劃與持續打磨。從時間軌跡來看,無論處于何種內容時代,百度百科始終堅守權威性門檻,并在不同階段不斷強化這一特質。
回顧百度百科的發展歷程,可劃分為三個具有標志性的階段:
1.0階段:處于移動互聯網尚未普及的圖文時代,百度百科通過廣泛的知識收集與收集,為百度搜索提供大量可靠的知識內容,成為用戶信賴的知識源,奠定了其權威性基礎。
2.0階段:隨著移動互聯網的興起,百度百科進入視頻化時代。以秒懂百科等創新功能為標志,視頻形式極大豐富了知識的呈現方式,使其能夠以更直觀、生動的方式觸達用戶,進一步提升了其權威性。
3.0階段:在AI技術的浪潮下,百度百科結合文心大模型等百度AI技術體系,融入智能體和數字人等先進技術,實現知識生產與傳播的智能化升級。
近期推出的繁星計劃便是這一階段的重要成果,通過AI優化知識服務,提升了百度百科的權威性,并為百度搜索提供了更強的支持。
未來,隨著百度百科AI化進程的不斷深入,它將不僅僅是一個知識平臺,還將成為推動知識生態發展的智能工具。隨著內容權威性的進一步增強,特別是在AI技術的深度融合下,百度百科或將進入新的發展階段。
特別聲明:本文為合作媒體授權專欄轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表專欄的立場,轉載請聯系原作者及原出處獲取授權。(有任何疑問都請聯系idonews@donews.com)