av一区二区三区,毛片永久新网址首页,精品国产AⅤ一区二区三区四川人

消滅大模型幻覺，它是最大的利器。

作者|文昌龍

編輯|楊舟

“未來我們得到的內(nèi)容可能是AI生產(chǎn)的東西占主導(dǎo)，這些東西又成為新的語料喂給AI，然后AI又會加工AI生產(chǎn)的東西，不斷反復(fù)。這就會出現(xiàn)‘遞歸效應(yīng)’，出現(xiàn)尼采講的‘永恒循環(huán)’。”

中國人民大學(xué)新聞學(xué)院教授劉海龍在采訪中指出，AI帶來的信息傳播負(fù)面效應(yīng)日益顯現(xiàn)。這一現(xiàn)象并非難以察覺，越來越多的人已開始感受到AI對信息傳播的顛覆性影響。

隨著AI信息循環(huán)的加劇，信息傳播的失真也愈發(fā)嚴(yán)重。打破這一惡性循環(huán)，一個解決思路是，牢牢把控源內(nèi)容。換句話說，打破AI大模型“幻覺”鏈條的關(guān)鍵，在于保證訓(xùn)練數(shù)據(jù)的質(zhì)量與權(quán)威性。

根據(jù)公開信息，大型語言模型（LLM）數(shù)據(jù)集可以簡單的概括為通用預(yù)訓(xùn)練語料庫和特定領(lǐng)域預(yù)訓(xùn)練語料庫，前者的來源也就是網(wǎng)頁、語言文本、書籍、學(xué)術(shù)資料、代碼、平行語料庫、社交媒體和百科全書。

其中，百科作為訓(xùn)練數(shù)據(jù)集的核心組成部分，已經(jīng)成為AIGC時代數(shù)據(jù)權(quán)威性的關(guān)鍵。

維基百科與百度百科等平臺已經(jīng)意識到這一點，并紛紛采取措施，確保數(shù)據(jù)的可信度與權(quán)威性。作為全球詞條數(shù)量最多的中文百科全書，百度百科近期也有了進(jìn)一步的舉措。

12月27日，在百度百科在和中國科協(xié)、中國科學(xué)院大學(xué)聯(lián)合舉辦的史記2024·科學(xué)百科100詞發(fā)布會上，發(fā)布了「繁星計劃」，將AI與知識內(nèi)容的融合推向了新的高度。這一舉措并非簡單地像維基百科排斥AI，因為AI本身也具備創(chuàng)造力，更像是在AI與權(quán)威之間架起了一座橋梁。

毫無疑問，在不廣為注意的領(lǐng)域，百科的內(nèi)容保衛(wèi)戰(zhàn)已經(jīng)拉開帷幕。

01?消滅大模型幻覺，百科是利器

百科的重要性在于，它是AI是否生成幻覺的訓(xùn)練數(shù)據(jù)集源頭之一。

大模型訓(xùn)練數(shù)據(jù)集，是指用來訓(xùn)練大型人工智能模型（如GPT、文心一言等大語言模型）的大量數(shù)據(jù)集合，對大模型的性能和表現(xiàn)至關(guān)重要。

打個比方，如果將大模型比作一個學(xué)生，那么訓(xùn)練數(shù)據(jù)集便是教材與練習(xí)題。教材的質(zhì)量與練習(xí)題的數(shù)量和種類，直接決定了學(xué)生的學(xué)習(xí)效果與知識掌握程度。一個優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)集，能夠幫助大模型這個“學(xué)生”走得更遠(yuǎn)，提供更有價值的服務(wù)。

大模型的訓(xùn)練數(shù)據(jù)集來源廣泛，因此質(zhì)量參差不齊，優(yōu)質(zhì)數(shù)據(jù)源往往需要付出不小的代價。

以O(shè)penAI為例，2024年5月22日，OpenAI宣布與新聞集團(tuán)達(dá)成多年期協(xié)議，獲得其主要新聞和信息出版物的當(dāng)前與存檔內(nèi)容，包括《華爾街日報》《巴倫周刊》《紐約郵報》《泰晤士報》《太陽報》等十余家知名媒體。

這一切背后，OpenAI支付了不小的代價。根據(jù)外媒報道，該交易為期五年，交易金額可能超過2.5億美元（約合人民幣18.1億元）。

OpenAI也提到了這筆交易的原因，“最終目標(biāo)是讓人們能夠根據(jù)可靠的信息和新聞來源做出明智的選擇。”

當(dāng)然，如果其他大模型機(jī)構(gòu)不像OpenAI那樣財力雄厚，那么最常見的選擇便是單單使用一些通用的預(yù)訓(xùn)練語料庫和特定領(lǐng)域的語料庫，其中百科語料庫尤為普遍。

最常見的百科語料庫包括維基百科和百度百科，它們以免費、開源、多語言支持和高文本價值為特點。這些知識經(jīng)過人工精心收集，準(zhǔn)確性較高，能夠幫助模型建立對各類事物的基本認(rèn)知，如歷史事件、科學(xué)概念等。

由于這些百科內(nèi)容易于獲取，機(jī)構(gòu)通常會選擇特定語言的百科數(shù)據(jù)進(jìn)行爬取和過濾，作為預(yù)訓(xùn)練語料庫的一部分。因此，它們在預(yù)訓(xùn)練語料庫中的出現(xiàn)頻率較高，是大語言模型（LLMs）知識庫的基礎(chǔ)。

今年年初，斯坦福大學(xué)的研究人員發(fā)布了WikiChat，宣稱這是首個幾乎不產(chǎn)生幻覺的聊天機(jī)器人，他們的信心來源于基于維基百科的知識進(jìn)行訓(xùn)練。

然而，隨著AI進(jìn)程的加速，百科也不能再百分百保證其準(zhǔn)確性。即使是知名平臺，依然存在信息錯誤或不完整的情況。

可見，要解決大模型幻覺的問題，必須保證其訓(xùn)練數(shù)據(jù)集的質(zhì)量和權(quán)威性。尤其是在百科類內(nèi)容中，內(nèi)容的準(zhǔn)確性和專業(yè)性是大模型穩(wěn)定輸出的基礎(chǔ)。

02?如何保證百科的權(quán)威

目前，維基百科為應(yīng)對人工智能生成內(nèi)容帶來的挑戰(zhàn)，推出了維基人工智能清理項目（WikiProject AI Cleanup），并強(qiáng)調(diào)內(nèi)容的可驗證性：要求編輯在文章歷史中注明是否使用了大型語言模型（LLM）。

作為百科的另一極，百度百科早在2006年就開始為百度搜索引擎提供知識源。公開資料顯示，截至2024年12月，百度百科已經(jīng)收錄了超2860萬個詞條，參與詞條編輯的網(wǎng)友超過795萬人，幾乎涵蓋了所有已知的知識領(lǐng)域。

百度百科擁有一支專家團(tuán)隊，用來確保所有內(nèi)容的準(zhǔn)確性與權(quán)威性。畢竟，在AI幻覺出現(xiàn)之前，虛假信息和利用百科進(jìn)行商業(yè)宣傳的行為已影響了百科產(chǎn)品的公共性與中立性。

回顧過去，百度百科在提升內(nèi)容專業(yè)性方面做出了努力，包括組建更專業(yè)的編輯團(tuán)隊、加強(qiáng)內(nèi)容審核力度，以及與行業(yè)機(jī)構(gòu)合作等。

例如，2009年，百度百科推出了權(quán)威共建專項活動，聯(lián)合各行業(yè)專家和機(jī)構(gòu)，共同構(gòu)建專業(yè)品類詞條；2014年，在衛(wèi)健委的指導(dǎo)下，百度百科聯(lián)合打造了“權(quán)威醫(yī)學(xué)科普傳播網(wǎng)絡(luò)平臺”；2015年，百度百科與中國科協(xié)達(dá)成合作，共同完善科學(xué)類科普詞條的準(zhǔn)確性。

專家團(tuán)隊的參與有效抵消了大眾編輯帶來的非專業(yè)性問題，但如今進(jìn)入AIGC時代，百度百科在權(quán)威性樹立上拿出許多砝碼。

從外部信息來看，為了進(jìn)一步提升百度百科的權(quán)威性，百度的策略是“以AI規(guī)范AI”。即在依賴人工編輯和專家審核的基礎(chǔ)上，結(jié)合AI技術(shù)，通過智能體等手段，進(jìn)一步提升內(nèi)容的準(zhǔn)確性和智能化水平。

核心動作之一是這次的“繁星計劃”，該計劃可概括為四大特色：專業(yè)標(biāo)識、編輯特權(quán)、技術(shù)共享和精準(zhǔn)流量。

以“專業(yè)標(biāo)識”為例，當(dāng)用戶在百度搜索時，專家的個人詞條會以專門標(biāo)識的形式展示，彰顯其權(quán)威性。在信息泛濫的時代，百度百科通過識別真正的專家和優(yōu)質(zhì)內(nèi)容，給予專業(yè)標(biāo)識，幫助大眾分辨真假。

過去，百度通過參考資料來定義知識，這雖然精準(zhǔn)，卻也誤傷了不少專業(yè)內(nèi)容，許多專業(yè)人士想要參與，但由于工具不便、門檻過高，常常被排除在外。如今，百度去除了這些繁瑣的流程，為專家提供了編輯特權(quán)，降低了參與的門檻。

通過“繁星計劃”，百度百科還將整合百度的AI技術(shù)，包括文心智能體平臺等，通過智能體和數(shù)字人技術(shù)，幫助專家免費制作數(shù)字分身，既降低成本，又提高產(chǎn)量，使科普變得更加容易和權(quán)威。

此外，百度百科還將立足于百度搜索，提供億級的精準(zhǔn)流量分發(fā)，助力知識的全民普惠。據(jù)透露，“繁星計劃”將覆蓋 10 萬個權(quán)威專家，覆蓋超100萬知識內(nèi)容。有關(guān)人士表示，這或許是業(yè)內(nèi)規(guī)模最大的 AI 科普計劃。

百度百科正在利用AI技術(shù)架起與權(quán)威之間的一道橋梁，試圖為解決AI幻覺問題、樹立權(quán)威科普提供一種解決方案。

03?從圖文到AI時代，百度百科始終手握王牌

一個現(xiàn)象是，百度百科頻繁被國內(nèi)媒體作為資料來源引用，既表明其權(quán)威性已廣泛認(rèn)可，更重要的是，這種權(quán)威性逐漸被潛移默化地接受，成為了百度的一張核心底牌。

一方面，作為簡體中文互聯(lián)網(wǎng)體量最大、用戶最廣泛的搜索引擎，百度是大多數(shù)網(wǎng)民查找信息的首選平臺。百度搜索對百度百科賦予了更高的權(quán)重，使得其內(nèi)容更易被用戶找到，逐步培養(yǎng)了用戶的依賴習(xí)慣。另一方面，百度百科作為一款精準(zhǔn)總結(jié)信息的產(chǎn)品，其權(quán)威性始終有保障。

因此，百度百科的內(nèi)容權(quán)威性正逐漸成為百度搜索的核心護(hù)城河，不僅有效消除AI幻覺，也增強(qiáng)了其在激烈競爭中的優(yōu)勢。

這種權(quán)威性的塑造并非一蹴而就，而是經(jīng)過長期的戰(zhàn)略規(guī)劃與持續(xù)打磨。從時間軌跡來看，無論處于何種內(nèi)容時代，百度百科始終堅守權(quán)威性門檻，并在不同階段不斷強(qiáng)化這一特質(zhì)。

回顧百度百科的發(fā)展歷程，可劃分為三個具有標(biāo)志性的階段：

1.0階段：處于移動互聯(lián)網(wǎng)尚未普及的圖文時代，百度百科通過廣泛的知識收集與收集，為百度搜索提供大量可靠的知識內(nèi)容，成為用戶信賴的知識源，奠定了其權(quán)威性基礎(chǔ)。

2.0階段：隨著移動互聯(lián)網(wǎng)的興起，百度百科進(jìn)入視頻化時代。以秒懂百科等創(chuàng)新功能為標(biāo)志，視頻形式極大豐富了知識的呈現(xiàn)方式，使其能夠以更直觀、生動的方式觸達(dá)用戶，進(jìn)一步提升了其權(quán)威性。

3.0階段：在AI技術(shù)的浪潮下，百度百科結(jié)合文心大模型等百度AI技術(shù)體系，融入智能體和數(shù)字人等先進(jìn)技術(shù)，實現(xiàn)知識生產(chǎn)與傳播的智能化升級。

近期推出的繁星計劃便是這一階段的重要成果，通過AI優(yōu)化知識服務(wù)，提升了百度百科的權(quán)威性，并為百度搜索提供了更強(qiáng)的支持。

未來，隨著百度百科AI化進(jìn)程的不斷深入，它將不僅僅是一個知識平臺，還將成為推動知識生態(tài)發(fā)展的智能工具。隨著內(nèi)容權(quán)威性的進(jìn)一步增強(qiáng)，特別是在AI技術(shù)的深度融合下，百度百科或?qū)⑦M(jìn)入新的發(fā)展階段。

特別聲明：本文為合作媒體授權(quán)專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表專欄的立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)

? 版權(quán)聲明

版權(quán)聲明 1、本網(wǎng)站名稱：今夜晟發(fā)布網(wǎng)
2、本站永久網(wǎng)址：http://www.6sbr.cn
3、本網(wǎng)站的文章部分內(nèi)容可能來源于網(wǎng)絡(luò)，僅供大家學(xué)習(xí)與參考，如有侵權(quán)，請聯(lián)系站長進(jìn)行刪除處理。
4、本站一切資源不代表本站立場，并不代表本站贊同其觀點和對其真實性負(fù)責(zé)。
5、本站一律禁止以任何方式發(fā)布或轉(zhuǎn)載任何違法的相關(guān)信息，訪客發(fā)現(xiàn)請向站長舉報

国产精品网站入口_深夜在线播放_一级片韩国_日本va_综合网中文字幕_性别为本

權(quán)威+AI，百度百科打出王炸