OpenAI又火了!最近很多人的朋友圈都混進了一個讓人既愛又怕的狠角色,以至于Stackoverflow不得不趕緊下架。
最近,OpenAI發(fā)布了聊天AI ChatGPT,短短幾天,其用戶數(shù)量直接達到百萬級,甚至服務(wù)器一度被注冊用戶擠爆。
網(wǎng)友們對此感到驚訝“超越谷歌搜索”神器到底是怎么做到的?到底靠譜嗎?
OpenAI公司最近發(fā)布了基于旗艦GPT系列的大型語言模型ChatGPT(LLM),是專門用于對話交互的模型。用戶可以下載公司的免費演示版本。
大多數(shù)大型語言模型都是發(fā)布的(LLM)同樣,ChatGPT的發(fā)布也引起了一些爭議。在發(fā)布后的短短幾個小時內(nèi),這種新的語言模型在Twitter上引起了轟動,用戶上傳了令人印象深刻的ChatGPT成就或災(zāi)難性失敗的截圖。
然而,從大型語言模型的廣泛角度來看,ChatGPT反映了該領(lǐng)域短暫而豐富的歷史,代表了在短短幾年內(nèi)取得的進展,以及需要解決的基本問題。
無監(jiān)督學(xué)習(xí)仍然是人工智能社區(qū)的目標(biāo)之一,互聯(lián)網(wǎng)上有大量有價值的知識和信息。但直到最近,大多數(shù)信息都不能用于機器學(xué)習(xí)系統(tǒng)。大多數(shù)機器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用程序都受到監(jiān)督,這意味著人類必須收集大量的數(shù)據(jù)樣本并注釋每個樣本來訓(xùn)練機器學(xué)習(xí)系統(tǒng)。
隨著Transformer架構(gòu)(大型語言模型的關(guān)鍵組件)的出現(xiàn),這種情況發(fā)生了變化。Transformer模型可以使用大量的無標(biāo)記文本語料庫進行訓(xùn)練。它們隨機屏蔽文本部分,并試圖預(yù)測缺失部分。通過反復(fù)執(zhí)行此操作,Transformer調(diào)整其參數(shù),以表示大序列中不同單詞之間的關(guān)系。
這已被證明是一種非常有效和可擴展的策略。可以收集非常大的訓(xùn)練語料庫,無需人工標(biāo)記,從而創(chuàng)建和訓(xùn)練越來越大的Transformer模型。研究和實驗表明,Transformer模型和大型語言模型(LLM)隨著規(guī)模的增加,它們可以生成更長的連貫文本序列。大型語言模型(LLM)它還展示了大規(guī)模的應(yīng)急能力。
大型語言模型(LLM)通常只有文本,這意味著它們?nèi)狈ωS富的多感官體驗,試圖模仿它們。盡管GPT-3等大型語言模型(LLM)它取得了令人印象深刻的成就,但它們存在一些基本缺陷,使它們無法預(yù)測需要常識、邏輯、規(guī)劃、推理和其他知識的任務(wù),而這些知識通常在文本中被省略。大型語言模型(LLM)以產(chǎn)生幻覺反應(yīng)、連貫但實際上是虛假的文本和經(jīng)常誤解用戶提示的明顯意圖而聞名。
通過增加模型及其培訓(xùn)語料庫的規(guī)模,科學(xué)家可以減少大型語言模型中明顯錯誤的頻率。但根本問題并沒有消失,即使是最大的大型語言模型(LLM)也會在很小的推動下犯愚蠢的錯誤。
若大型語言模型(LLM)僅在科學(xué)研究實驗室中跟蹤基準(zhǔn)測試的性能可能不是一個大問題。然而,隨著人們在實際應(yīng)用中使用大型語言模型(LLM)對解決這些問題和其他問題越來越感興趣。工程師必須確保他們的機器學(xué)習(xí)模型在不同的條件下保持強大,并滿足用戶的需求和要求。
為了解決這個問題,OpenAI利用人類反饋加強學(xué)習(xí)(RLHF)此前開發(fā)的技術(shù)用于優(yōu)化和強化學(xué)習(xí)模型。加強學(xué)習(xí)的人類反饋(RLHF)不是讓強化學(xué)習(xí)模型隨機探索其環(huán)境和行為,而是利用人類主管的偶爾反饋來引導(dǎo)代理朝著正確的方向前進。強化學(xué)習(xí)人類反饋(RLHF)其優(yōu)點是,它可以通過極小的人為反饋來改善加強學(xué)習(xí)代理的培訓(xùn)。
OpenAI后來強化了人類反饋的學(xué)習(xí)(RLHF)InstructGPT是一種大型語言模型(LLM)該系列旨在更好地理解和響應(yīng)用戶提示中的指令。InstructGPT是GPT-3模型,根據(jù)人類反饋進行微調(diào)。
這顯然是一種權(quán)衡。人工注釋可能成為可擴展訓(xùn)練過程中的瓶頸。然而,OpenAI通過在無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)之間找到正確的平衡,可以獲得更好的響應(yīng)指令、減少有害輸出和資源優(yōu)化等重要好處。根據(jù)OpenAI的研究結(jié)果,13億參數(shù)的InstructionGPT通常優(yōu)于1750億參數(shù)的GPT-3模型。
ChatGPT的訓(xùn)練過程
基于InstructGPT模型的經(jīng)驗,ChatGPT是基于的。在用戶提示和模型響應(yīng)中,人工注釋器創(chuàng)建了一組示例對話。這些數(shù)據(jù)用于基于微調(diào)構(gòu)建ChatGPT的GPT-3.5模型。下一步,將為微調(diào)模型提供新的提示,并提供一些響應(yīng)。標(biāo)記人員對這些反應(yīng)進行排名。然后,從這些交互中生成的數(shù)據(jù)被用于訓(xùn)練獎勵模型,這有助于進一步微調(diào)加強學(xué)習(xí)管道中的大型語言模型(LLM)。
OpenAI還沒有披露強化學(xué)習(xí)過程的所有細節(jié),但人們想知道這個過程“不可擴展的成本”,也就是說,需要多少人力。
ChatGPT的結(jié)果令人印象深刻。該模型完成了各種任務(wù),包括提供代碼反饋、寫詩、用不同的音調(diào)解釋技術(shù)概念、生成人工智能模型的提示。
然而,該模型也容易出現(xiàn)類似于大型語言模型的情況(LLM)所犯的錯誤,如引用不存在的論文和書籍,誤解直觀的物理學(xué),以及組合失敗。
人們對這些失敗并不感到驚訝。ChatGPT沒有發(fā)揮任何神奇的作用,它應(yīng)該遇到與前一代相同的問題。然而,在現(xiàn)實世界的應(yīng)用中,我們在哪里可以信任它?顯然,這里有一些有價值的內(nèi)容,正如人們在Codex和GitHubCopilot中看到的,大型語言模型(LLM)它可以非常有效地使用。
在這里,決定ChatGPT是否有用的是與之一起實現(xiàn)的工具和保護類型。例如,ChatGPT可能成為企業(yè)創(chuàng)建聊天機器人的一個很好的平臺,比如編碼和圖形設(shè)計的數(shù)字合作伙伴。首先,如果它遵循InstructGPT的例子,它應(yīng)該能夠以更少的參數(shù)獲得復(fù)雜模型的性能,這將使其具有成本效益。此外,如果OpenAI提供工具,企業(yè)可以實現(xiàn)自己的人類反饋,加強學(xué)習(xí)(RLHF)對于微調(diào),它可以進一步優(yōu)化特定的應(yīng)用程序。在大多數(shù)情況下,它比聊天機器人更有用。聊天機器人可以隨意談?wù)撊魏问虑椤W詈螅绻麨閼?yīng)用程序開發(fā)人員提供集成ChatGPT和應(yīng)用程序場景的工具,并將其輸入和輸出映射到特定的應(yīng)用程序事件和操作中,他們將能夠設(shè)置正確的護欄,以防止模型不穩(wěn)定。
基本上,OpenAI創(chuàng)建了一個強大的人工智能工具,但它有明顯的缺陷。它現(xiàn)在需要創(chuàng)建一個正確的開發(fā)工具生態(tài)系統(tǒng),以確保產(chǎn)品團隊能夠利用ChatGPT的力量。GPT-為許多不可預(yù)測的應(yīng)用開辟了道路,因此了解ChatGPT的庫存將非常有趣。