在追求構建更強大AI的道路上,各大公司如OpenAI和Google突然遭遇了一個未曾預料的挑戰——互聯網似乎變得「太小」了。這背後,是因為這些公司開發的AI系統日益強大,對資訊的渴求也愈發旺盛。然而,隨著數據所有者開始限制AI公司對其數據的訪問,互聯網上的優質公共數據池變得愈發稀缺。
華爾街日報近日撰文表示,一些企業高管和研究人員憂心忡忡地表示,高質量文本數據的需求可能在兩年內超過供應量,這無疑會拖慢AI發展的步伐。面對這一困境,AI公司們開始四處尋找尚未開發的資訊源,並重新考慮如何更有效地訓練這些系統。據知情人士透露,OpenAI——這位ChatGPT的締造者,甚至已經考慮將YouTube視頻中的對話內容轉化為文本,用以此為基礎訓練其下一代模型GPT-5。
然而,一些公司試圖通過使用AI生成的數據(也稱合成數據)作為訓練材料來解決問題。但多位研究人員表示,這種方法可能帶來嚴重的故障和不確定性。這些嘗試大多在秘密中進行,因為企業高管認為,誰先找到解決方案,誰就可能獲得競爭優勢。
AI研究員Ari Morcos直言不諱地指出,數據短缺已成為一個亟待解決的前沿性研究問題。而數據短缺只是AI發展面臨的眾多挑戰之一。大型語言模型,如ChatGPT、Google的Gemini等背後運行的大型語言模型所需的晶片也很稀缺。此外,行業領導者還擔憂數據中心及其所需電力的不足。
AI語言模型主要依賴從互聯網上獲取的文本進行訓練,這些文本包括科學研究、新聞報道和維基百科(Wikipedia)條目等。這些材料被分解為詞元(token),即模型學習構建類似人類表達的單詞和部分單詞。通常,AI模型訓練的數據越多,其能力就越強。OpenAI就是憑藉這種策略,成為了全球知名的AI公司。
儘管OpenAI沒有透露其目前最先進的語言模型GPT-4的詳細訓練材料,但據估計,GPT-4的訓練素材已經多達12兆個詞元。研究人員預測,按照當前的增長軌跡,像GPT-5這樣的AI系統將需要60兆到100兆個詞元的數據。然而,即使利用所有可用的高質量語言和圖像數據,仍可能存在至少10兆到20兆個詞元的缺口,如何彌補這一缺口仍是未知數。
值得注意的是,網上大部分數據對AI訓練並無實際用處,因為它們可能存在句子殘缺、無法增進模型知識等問題。業內人士估計,互聯網上的數據只有一小部分對AI訓練有用,甚至可能僅為非營利組織Common Crawl收集資訊的十分之一。
與此同時,社交媒體平臺、新聞出版商等出於公平補償等考量,開始限制AI公司對其數據的訪問。公眾對於交出私人對話數據(如通過iMessage進行聊天)以幫助訓練AI模型也持謹慎態度。儘管如此,Meta Platforms的朱克伯格(Mark Zuckerberg)仍強調自家平臺在數據獲取上的優勢,認為這將是其AI業務發展的一大助力。然而,這些數據中究竟有多少能被視為高質量數據,目前仍是一個未知數。
目前,包括OpenAI的合作夥伴微軟(Microsoft)在內的一些科技公司,正致力於開發規模遠小於GPT-4,但專注於實現特定目標的小型語言模型。
OpenAI的行政總裁阿爾特曼(Sam Altman)已透露,該公司正在研究訓練未來模型的新方法。據知情人士透露,OpenAI還討論過建立一個數據市場,在這個市場中,OpenAI能夠制定一種機制來評估每個數據點對最終訓練模型的貢獻程度,並向數據提供者支付報酬。
Google內部也在探討類似的思路。然而,迄今為止,研究人員在構建這樣的系統時仍面臨諸多挑戰,尚未找到有效的突破口。
同時,OpenAI還在努力搜集可用的信息。知情人士稱,公司高層已探討利用自動語音識別工具Whisper在互聯網上轉錄高質量視頻和音頻素材的可能性。其中一些將通過公開的YouTube影片來實現,這些影片中的一部分已經被用來訓練GPT-4。
OpenAI的一位發言人表示:「我們的數據集是獨一無二的,經過精心整理,以幫助我們的模型更好地領悟世界。」她還說,OpenAI的工具會從公開可用的內容中提取信息,並通過合作夥伴關係獲取非公開數據。
另外,一些公司也在嘗試自行製作數據。然而,輸入本身由AI生成的模型文本,被認為是近親繁殖的計算機科學版本。此類模型往往會出現胡編亂造的現象,一些研究人員稱之為「模型崩潰」。
許多研究數據問題的專家對最終找到解決方案持樂觀態度。有專家將其比作「石油峰值」的概念,即曾有人擔心石油生產可能會達到頂峰,從而引發經濟崩潰。然而,隨著新技術的出現,如本世紀初的壓裂技術,這種擔憂最終被證明是不準確的。專家認為,AI領域也可能出現類似的發展,其最大的不確定性在於,人類不知道將會出現怎樣的技術突破。(香港商報網綜合 記者徐樂釗)
頂圖來源:路透社