自ChatGPT發布以來,弱智吧用戶就熱衷于利用不尋常的高質問題挑戰每一個AI產品的能力邊界。
其中一種測試方法是量數找到類似“為什么孫悟空是中國猴子卻叫美猴王,不應該叫中猴王嗎”、據荒“生魚片就是開悟死魚片”這種類似冷笑話的句子,看人工智能能否如人類一樣破解其真正含義。弱智吧
這類荒謬卻似乎又有一絲合理性的高質發言,往往來自于百度貼吧“弱智吧”。量數
近日,據荒弱智吧數據在AI領域又多做了一份貢獻。開悟
由中科院深圳先進技術研究院、弱智吧中科院自動化研究所,高質滑鐵盧大學等高校、量數研究機構聯合發布了一份高質量中文指令微調數據集。據荒值得注意的開悟是,在研究過程中,學者們發現,來自“弱智吧”的數據在其中有亮眼表現。
該團隊發布的論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》詳細介紹了其研究過程和成果。
這項研究的目的在于解決當下中文大模型訓練面臨的幾大難題:中文數據集很多是直接翻譯自英文翻譯,沒有很好地契合中文的語言習慣和文化背景、不少數據集是用AI生成的,可能出現事實性錯誤、目前大部分人工標注的數據集,很多時候數據量小、覆蓋領域不全面。
基于此,團隊從中文互聯網的各處搜集數據,經過一系列清洗和人工審核后,打造出了高質量、多樣化的中文指令微調數據集COIG-CQIA。
具體而言,研究的數據來源包括知乎、思否、豆瓣、小紅書、弱智吧、百科全書、四個特定領域知識(醫學、經濟、農學、電子)、考試材料(中考、高考、考研等)、COIG-PC 等語料庫。而用以訓練的模型是零一萬物Yi系列開源大模型。
結果,在各個方面表現優秀的版本竟然是弱智吧版。
弱智吧這一數據集由500個點贊最高的帖子標題+人工或GPT-4的回復組成, 經過人工審核后,最終留下了240組指令-回復數據對。
在規模較小的Yi-6B模型上,純弱智吧版本總分排名第二。
在Yi-34B模型上,弱智吧版本總分第一。
綜合各項結果,弱智吧在所有子集中平均排名第二。
弱智吧為何能夠有這么優秀的發揮?
研究者認為,可能是弱智吧問題增強了AI的邏輯推理能力,有利于完成指令遵循任務( instruct-following tasks)。“這種語料有點腦筋急轉彎的感覺,所以其使用提升了模型的推理能力。”一位技術人員這樣告訴21記者。
弱智吧成為優秀訓練素材引發關注的背后,是人工智能發展一直繞不開的訓練數據隱憂。
數據是生成式人工智能的“糧食和血液”,其重要性不言而喻。以OpenAI的GPT模型為例,GPT-1預訓練數據量僅有5GB,GPT-2則增加至40GB,GPT-3更是達到了驚人的45TB。
“大模型時代,得數據者得天下。”對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣在此前接受21世紀經濟報道記者采訪時表示,當前技術領域的研究顯示,各家大模型在算法層區別并不大,并且具有同質化的趨勢。在此背景下,訓練數據就成了真正區分且影響大模型性能的重要因素之一。
數據需求水漲船高,高質量數據供給卻面臨稀缺之困。去年,一項來自Epoch Al Research團隊的研究就表明,高質量的語言數據存量將在2026年耗盡。
面對這一困境,大模型廠商“各顯神通”發掘可用資源。
據媒體報道,谷歌正在考慮利用谷歌文檔、表格和幻燈片中提供的消費者數據來支撐其旗下AI產品的訓練。公開消息顯示,OpenAI旗下模型的訓練數據則有相當一部分來自維基百科、書籍、期刊等公共互聯網內容。
社交媒體上活躍而多元的數據也被認為是大模型訓練的好材料。
2023年12月,有知情人士向媒體表示,蘋果拿出5000萬美元嘗試Condé Nast(《Vogue》和《紐約客》的出版商)、NBC和IAC等新聞機構交涉以獲得新聞文章的授權,用以其生成式AI產品開發。
OpenAI在1月與數十家出版商洽談簽署文章授權協議,以獲取數據訓練其AI模型。同樣在今年,剛剛上市的社交媒體Reddit也被傳成交了一筆年價值約6000萬美元的大生意——允許一家大型人工智能公司訪問平臺內容用以訓練模型。
數據從何而來,事實上是個國際難題。
在人工智能領域,我國可以稱得上是活躍的先行者。科技部新一代人工智能發展研究中心去年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。
然而,一面是潮水涌起,玩家紛紛入場,另一面是行業狂飆,“燃料”卻面臨枯竭。
中文大模型面臨的情況可能更加嚴峻。以ChatGPT為例,公開數據顯示,在GPT-3訓練數據集的語言占比中,中文語料在總語料中占比不足0.1%,且其中包含繁體中文。
中國工程院院士高文曾在演講中提到,全球通用的50億大模型數據集中,中文語料僅占1.3%。一些主流數據集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中的中文語料也只占4.8%。
可以說,目前世界上主流的大模型都是靠英文語料庫來訓練和生成大模型。
要研發可靠實用的中文大模型,就必須有嚴謹可信的中文數據庫。這對中國的人工智能的進一步發展無疑是個挑戰。
知乎創始人、CEO周源在今年兩會時就表示,我國大模型發展當前面臨的最顯著的問題之一是高質量中文語料資源的短缺。
因此,加快高質量中文數據集的挖掘開發、補齊優質中文語料數據短板必不可少。
《生成式人工智能服務管理暫行辦法》就提到,要推動生成式人工智能基礎設施和公共訓練數據資源平臺建設;推動公共數據分類分級有序開放,擴展高質量的公共訓練數據資源。
我國多地也都曾發布相關政策以求推動建立高質量數據集。去年起,北京、深圳等地先后發布相關文件,指出要提升高質量數據要素供給能力、歸集高質量基礎訓練數據集、建立多模態公共數據集,打造高質量中文語料數據等。《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征求意見稿)》《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023—2024年)》等就提到過目前大模型訓練高質量中文語料占比過少,要打造高質量中文語料數據庫。
2025-04-17 03:23
2025-04-17 02:37
2025-04-17 01:55
2025-04-17 01:38
2025-04-17 01:08
2025-04-17 00:55