ChatGPT火爆的背后是技術(shù)的驅(qū)動，接收注冊驗證碼的平臺火爆到一塊多一條信息

行業(yè)新聞 / 2023-02-10 09:23:33 機器學(xué)習(xí) openai chatgpt

OpenAI又火了！最近很多人的朋友圈都混進了一個讓人既愛又怕的狠角色，以至于Stackoverflow不得不趕緊下架。

最近，OpenAI發(fā)布了聊天AI ChatGPT，短短幾天，其用戶數(shù)量直接達到百萬級，甚至服務(wù)器一度被注冊用戶擠爆。

網(wǎng)友們對此感到驚訝“超越谷歌搜索”神器到底是怎么做到的？到底靠譜嗎？

事件回顧

OpenAI公司最近發(fā)布了基于旗艦GPT系列的大型語言模型ChatGPT(LLM)，是專門用于對話交互的模型。用戶可以下載公司的免費演示版本。

大多數(shù)大型語言模型都是發(fā)布的(LLM)同樣，ChatGPT的發(fā)布也引起了一些爭議。在發(fā)布后的短短幾個小時內(nèi)，這種新的語言模型在Twitter上引起了轟動，用戶上傳了令人印象深刻的ChatGPT成就或災(zāi)難性失敗的截圖。

然而，從大型語言模型的廣泛角度來看，ChatGPT反映了該領(lǐng)域短暫而豐富的歷史，代表了在短短幾年內(nèi)取得的進展，以及需要解決的基本問題。

沒有監(jiān)督學(xué)習(xí)的夢想

無監(jiān)督學(xué)習(xí)仍然是人工智能社區(qū)的目標(biāo)之一，互聯(lián)網(wǎng)上有大量有價值的知識和信息。但直到最近，大多數(shù)信息都不能用于機器學(xué)習(xí)系統(tǒng)。大多數(shù)機器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用程序都受到監(jiān)督，這意味著人類必須收集大量的數(shù)據(jù)樣本并注釋每個樣本來訓(xùn)練機器學(xué)習(xí)系統(tǒng)。

隨著Transformer架構(gòu)（大型語言模型的關(guān)鍵組件）的出現(xiàn)，這種情況發(fā)生了變化。Transformer模型可以使用大量的無標(biāo)記文本語料庫進行訓(xùn)練。它們隨機屏蔽文本部分，并試圖預(yù)測缺失部分。通過反復(fù)執(zhí)行此操作，Transformer調(diào)整其參數(shù)，以表示大序列中不同單詞之間的關(guān)系。

這已被證明是一種非常有效和可擴展的策略。可以收集非常大的訓(xùn)練語料庫，無需人工標(biāo)記，從而創(chuàng)建和訓(xùn)練越來越大的Transformer模型。研究和實驗表明，Transformer模型和大型語言模型(LLM)隨著規(guī)模的增加，它們可以生成更長的連貫文本序列。大型語言模型(LLM)它還展示了大規(guī)模的應(yīng)急能力。

回歸監(jiān)督學(xué)習(xí)回歸監(jiān)督學(xué)習(xí)

大型語言模型(LLM)通常只有文本，這意味著它們?nèi)狈ωS富的多感官體驗，試圖模仿它們。盡管GPT-3等大型語言模型(LLM)它取得了令人印象深刻的成就，但它們存在一些基本缺陷，使它們無法預(yù)測需要常識、邏輯、規(guī)劃、推理和其他知識的任務(wù)，而這些知識通常在文本中被省略。大型語言模型(LLM)以產(chǎn)生幻覺反應(yīng)、連貫但實際上是虛假的文本和經(jīng)常誤解用戶提示的明顯意圖而聞名。

通過增加模型及其培訓(xùn)語料庫的規(guī)模，科學(xué)家可以減少大型語言模型中明顯錯誤的頻率。但根本問題并沒有消失，即使是最大的大型語言模型(LLM)也會在很小的推動下犯愚蠢的錯誤。

若大型語言模型(LLM)僅在科學(xué)研究實驗室中跟蹤基準(zhǔn)測試的性能可能不是一個大問題。然而，隨著人們在實際應(yīng)用中使用大型語言模型(LLM)對解決這些問題和其他問題越來越感興趣。工程師必須確保他們的機器學(xué)習(xí)模型在不同的條件下保持強大，并滿足用戶的需求和要求。

為了解決這個問題，OpenAI利用人類反饋加強學(xué)習(xí)(RLHF)此前開發(fā)的技術(shù)用于優(yōu)化和強化學(xué)習(xí)模型。加強學(xué)習(xí)的人類反饋(RLHF)不是讓強化學(xué)習(xí)模型隨機探索其環(huán)境和行為，而是利用人類主管的偶爾反饋來引導(dǎo)代理朝著正確的方向前進。強化學(xué)習(xí)人類反饋(RLHF)其優(yōu)點是，它可以通過極小的人為反饋來改善加強學(xué)習(xí)代理的培訓(xùn)。

OpenAI后來強化了人類反饋的學(xué)習(xí)(RLHF)InstructGPT是一種大型語言模型(LLM)該系列旨在更好地理解和響應(yīng)用戶提示中的指令。InstructGPT是GPT-3模型，根據(jù)人類反饋進行微調(diào)。

這顯然是一種權(quán)衡。人工注釋可能成為可擴展訓(xùn)練過程中的瓶頸。然而，OpenAI通過在無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)之間找到正確的平衡，可以獲得更好的響應(yīng)指令、減少有害輸出和資源優(yōu)化等重要好處。根據(jù)OpenAI的研究結(jié)果，13億參數(shù)的InstructionGPT通常優(yōu)于1750億參數(shù)的GPT-3模型。

ChatGPT的訓(xùn)練過程

基于InstructGPT模型的經(jīng)驗，ChatGPT是基于的。在用戶提示和模型響應(yīng)中，人工注釋器創(chuàng)建了一組示例對話。這些數(shù)據(jù)用于基于微調(diào)構(gòu)建ChatGPT的GPT-3.5模型。下一步，將為微調(diào)模型提供新的提示，并提供一些響應(yīng)。標(biāo)記人員對這些反應(yīng)進行排名。然后，從這些交互中生成的數(shù)據(jù)被用于訓(xùn)練獎勵模型，這有助于進一步微調(diào)加強學(xué)習(xí)管道中的大型語言模型(LLM)。

OpenAI還沒有披露強化學(xué)習(xí)過程的所有細節(jié)，但人們想知道這個過程“不可擴展的成本”，也就是說，需要多少人力。

ChatGPT能在多大程度上信任？

ChatGPT的結(jié)果令人印象深刻。該模型完成了各種任務(wù)，包括提供代碼反饋、寫詩、用不同的音調(diào)解釋技術(shù)概念、生成人工智能模型的提示。

然而，該模型也容易出現(xiàn)類似于大型語言模型的情況(LLM)所犯的錯誤，如引用不存在的論文和書籍，誤解直觀的物理學(xué)，以及組合失敗。

人們對這些失敗并不感到驚訝。ChatGPT沒有發(fā)揮任何神奇的作用，它應(yīng)該遇到與前一代相同的問題。然而，在現(xiàn)實世界的應(yīng)用中，我們在哪里可以信任它？顯然，這里有一些有價值的內(nèi)容，正如人們在Codex和GitHubCopilot中看到的，大型語言模型(LLM)它可以非常有效地使用。

在這里，決定ChatGPT是否有用的是與之一起實現(xiàn)的工具和保護類型。例如，ChatGPT可能成為企業(yè)創(chuàng)建聊天機器人的一個很好的平臺，比如編碼和圖形設(shè)計的數(shù)字合作伙伴。首先，如果它遵循InstructGPT的例子，它應(yīng)該能夠以更少的參數(shù)獲得復(fù)雜模型的性能，這將使其具有成本效益。此外，如果OpenAI提供工具，企業(yè)可以實現(xiàn)自己的人類反饋，加強學(xué)習(xí)(RLHF)對于微調(diào)，它可以進一步優(yōu)化特定的應(yīng)用程序。在大多數(shù)情況下，它比聊天機器人更有用。聊天機器人可以隨意談?wù)撊魏问虑椤Ｗ詈螅绻麨閼?yīng)用程序開發(fā)人員提供集成ChatGPT和應(yīng)用程序場景的工具，并將其輸入和輸出映射到特定的應(yīng)用程序事件和操作中，他們將能夠設(shè)置正確的護欄，以防止模型不穩(wěn)定。

基本上，OpenAI創(chuàng)建了一個強大的人工智能工具，但它有明顯的缺陷。它現(xiàn)在需要創(chuàng)建一個正確的開發(fā)工具生態(tài)系統(tǒng)，以確保產(chǎn)品團隊能夠利用ChatGPT的力量。GPT-為許多不可預(yù)測的應(yīng)用開辟了道路，因此了解ChatGPT的庫存將非常有趣。