http://m.007sbw.cn 2023-03-16 15:35 來源:網(wǎng)易新聞
OpenAI 聯(lián)合創(chuàng)始人 Sam Altman 表示,它是“迄今為止功能最強(qiáng)大、最一致的模型”,能夠使用圖像和文本。
當(dāng)?shù)貢r間3月14日,人工智能研究公司OpenAI公布了其大型語言模型的最新版本——GPT-4。
“我們花了 6 個月的時間,利用對抗性測試項(xiàng)目以及 ChatGPT 的經(jīng)驗(yàn),反復(fù)調(diào)整 GPT-4,結(jié)果在真實(shí)性、可操作性以及拒絕超出道德等邊界方面取得了有史以來最好的結(jié)果(盡管遠(yuǎn)非完美)”,OpenAI 分享道。
在GPT-4發(fā)布后,微軟宣布自家產(chǎn)品早已第一時間用上了 GPT-4。"我們很高興地確認(rèn),新的 Bing 正在 GPT-4 上運(yùn)行,為搜索而定制,"微軟在一篇博客文章中寫道。"如果你在過去六周的任何時候使用過預(yù)覽版的新 Bing,你已經(jīng)提前看到了 OpenAI 的最新模型的力量。隨著 OpenAI 對 GPT-4 及以后的更新,Bing 從這些改進(jìn)中受益,以確保我們的用戶擁有最全面的副駕駛功能。"
除了表現(xiàn)方面,還有一個明顯的不同是,ChatGPT-4比以前的版本“更大”,這意味著它已經(jīng)接受了更多數(shù)據(jù)的訓(xùn)練,因此運(yùn)行起來也更加昂貴。這也意味使用它的成本越來越高。與ChatGPT不同的是,這個新模型目前還不能免費(fèi)公開測試,雖然它鼓勵開發(fā)者申請?jiān)囉茫菍⑿枰系却麊巍?/p>
新模型將提供給ChatGPT的付費(fèi)用戶 ChatGPT Plus(每月20美元),也將作為API的一部分提供,允許開發(fā)者付費(fèi)將AI集成到他們的應(yīng)用程序中。OpenAI表示,多家公司已經(jīng)將GPT-4集成到他們的產(chǎn)品中,包Duolingo、Stripe和Khan Academy等。
GPT-4到底強(qiáng)在哪里?
GPT-4 比上一個版本強(qiáng)在哪?OpenAI 稱,雖然這兩個版本在隨意的談話中看起來很相似,但“當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時,差異就會出現(xiàn)”,GPT-4 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。
多模態(tài)的引入,讓此次發(fā)布的GPT相較上一代綜合體感明顯“更上一層樓”。
“GPT-4比以往任何版本更具創(chuàng)造性和協(xié)作性”,并且“有更廣泛的常識和解決問題的能力,可以更準(zhǔn)確地解決難題”。OpenAI的CEO Sam Altman說:“這是我們迄今為止功能最強(qiáng)大的模型。”
為讓眾人更加清楚地了解 GPT-4,OpenAI 官方不僅上線了介紹性的網(wǎng)頁(https://openai.com/research/gpt-4),還發(fā)布了一篇技術(shù)論文(https://cdn.openai.com/papers/gpt-4.pdf),詳細(xì)分享了 GPT-4 強(qiáng)大的功能。
值得注意的是,OpenAI 公開的技術(shù)報(bào)告中,不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息。
從技術(shù)維度上來看,GPT-4 是一個基于 Transformer 的模型,經(jīng)過預(yù)訓(xùn)練,可以預(yù)測文檔中的下一個 token。這個項(xiàng)目的一個核心部分是開發(fā)了基礎(chǔ)設(shè)施和優(yōu)化方法。這使 OpenAI 能夠根據(jù)不超過 GPT-4 的 1/1000 的計(jì)算量訓(xùn)練的模型,準(zhǔn)確地預(yù)測 GPT-4 的某些方面的性能。
10秒鐘做出一個網(wǎng)站
在 GPT4 的發(fā)布會上,OpenAI 的總裁和聯(lián)合創(chuàng)始人 Greg Brockman 展示了 GPT-4 擁有的強(qiáng)大編程技能,有一段兩分鐘的精華,演示的內(nèi)容如下:
1. 在草稿本上用紙筆畫出一個非常粗糙的草圖;
2. 拍照告訴 GPT-4 我們要做一個網(wǎng)站,效果就是圖中這樣,讓 GPT-4 生成網(wǎng)站代碼;
3. GPT-4 自己實(shí)現(xiàn)一個網(wǎng)站,總共歷時十秒鐘左右。
這效果給當(dāng)下不少開發(fā)者帶來了壓力以及非常強(qiáng)烈的職業(yè)危機(jī)感,有人當(dāng)即表示“睡不著了”:“輾轉(zhuǎn)反側(cè)了一個晚上,思考未來 5-10 年我們到底會在哪里。”
考試能力超過90%人類
在分析 GPT-4 的能力時,OpenAI 還讓該模型參加了統(tǒng)一律師考試、法學(xué)院入學(xué)考試(LSAT)、研究生入學(xué)考試(GRE)的定量、口頭推理、分析寫作考試以及和各種 AP 科目考試等測試。
據(jù)了解,GPT-4在各種專業(yè)學(xué)術(shù)基準(zhǔn)上有著人類水平表現(xiàn)。例如在模擬律師考試中,GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背后的GPT-3.5得分約為倒數(shù)10%。
GPT-4 在大多數(shù)這些專業(yè)和學(xué)術(shù)考試中表現(xiàn)與人類水平相當(dāng)。這意味著,如果 GPT-4 是一個僅憑應(yīng)試能力來判斷的人,它可以進(jìn)入法學(xué)院,而且很可能也能進(jìn)入許多大學(xué)。
玩圖也一流
GPT-4可以接收文本和圖像輸入,用戶可指定任何視覺或語言任務(wù)。具體來說,它可以生成文本輸出(自然語言、代碼等),給定的輸入包括穿插的文本和圖像。在一系列的領(lǐng)域中,包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現(xiàn)出與純文本輸入類似的能力。
GPT-4可以看懂搞笑圖中的梗!
用戶:這幅圖有什么不尋常之處?
GPT-4:這張的不尋常之處在于,一名男子正在連接在一輛行駛中的出租車車頂?shù)撵僖掳迳响贍C衣服。
用戶:你能解釋一下這個帖子嗎?
GPT-4:這個備忘錄是一個笑話,它結(jié)合了兩個不相關(guān)的東西:從太空看地球的和雞塊。該備忘錄的文字表明,下面的是從太空拍攝的地球的照片。然而,該實(shí)際上是雞塊的排列,擺放得像一張世界地圖。這個備忘錄的幽默感來自于文字和的意外并置。文字讓人期待地球的雄偉形象,但圖像實(shí)際上是平凡而愚蠢的東西。
用戶:這幅畫有什么有趣的地方?逐一描述一下。
GPT-4:顯示的是一個“Lightning Cable”適配器的包裝,有三張圖。圖1:一部智能手機(jī),其充電端口插著一個VGA接口。圖2:“Lightning Cable”適配器的包裝上有一張VGA接口的。圖3:VGA連接器的特寫,末端是一個小的Lightning連接器(用于為iPhone和其他蘋果設(shè)備充電)。這張的幽默感來自于將一個大的、過時的VGA連接器插入一個小的、現(xiàn)代的智能手機(jī)充電端口的荒謬性。
支持更長的輸入和輸出
在性能上,GPT-4 超越了過往的模型,它可以遵循自然語言的復(fù)雜指令、生成技術(shù)或創(chuàng)意作品,支持生成和處理多達(dá) 32,768 個 token(約 25,000 字的文本),這使得 GPT-4 能有更長的上下文,允許長篇內(nèi)容創(chuàng)建、擴(kuò)展對話以及文檔搜索和分析等用例。
超越傳統(tǒng)的大模型
在一套傳統(tǒng)的 NLP 基準(zhǔn)測試中,GPT-4 超過了以前的大型語言模型和大多數(shù)最先進(jìn)的系統(tǒng)(這些系統(tǒng)通常有特定的基準(zhǔn)訓(xùn)練或手工工程)。
在 MMLU(多任務(wù)語言理解)基準(zhǔn)測試中,GPT-4 不僅在英語中以相當(dāng)大的優(yōu)勢勝過現(xiàn)有的模型,而且在其他語言中也表現(xiàn)出強(qiáng)大的性能。在 MMLU 的翻譯變體上,GPT-4 的性能優(yōu)于 GPT-3.5 和其他 LLM(Chinchilla,PaLM)的英語性能,包括低資源語言,如拉脫維亞語、威爾士語和斯瓦希里語。
生成代碼、改 Bug 的最佳小能手
除此之外,OpenAI通過開源評估框架,用于自動評估AI模型性能的框架,允許任何人報(bào)告模型中的缺點(diǎn),以幫助指導(dǎo)進(jìn)一步改進(jìn)。
與此同時,GPT-4 對代碼有超強(qiáng)的理解能力,可以幫助程序員生成代碼,遇上 Bug 時,甚至只要你把錯誤信息或者代碼異常的截圖發(fā)給 GPT-4,它就能幫你給出相應(yīng)的提示。
GPT-4的局限性
盡管功能已經(jīng)非常強(qiáng)大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點(diǎn)是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產(chǎn)生幻覺、生成錯誤答案,并出現(xiàn)推理錯誤。
1、該模型在其輸出中可能會有各種偏見,但OpenAI在這些方面已經(jīng)取得了進(jìn)展,目標(biāo)是使建立的人工智能系統(tǒng)具有合理的默認(rèn)行為,以反映廣泛的用戶價(jià)值觀。
2、GPT-4 通常缺乏對其絕大部分?jǐn)?shù)據(jù)截止后(2021 年 9 月)發(fā)生的事件的了解,也不會從其經(jīng)驗(yàn)中學(xué)習(xí)。它有時會犯一些簡單的推理錯誤,這似乎與這么多領(lǐng)域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。
3、GPT-4 預(yù)測時也可能出錯但很自信,意識到可能出錯時也不會再檢查一遍(double-check)。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過高度校準(zhǔn)(其對答案的預(yù)測置信度通常與正確概率相匹配)。然而,通過OpenAI目前訓(xùn)練后的過程,校準(zhǔn)減少了。
OpenAI表示,研究團(tuán)隊(duì)一直在對GPT-4進(jìn)行迭代,使其從訓(xùn)練開始就更加安全和一致,所做的努力包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過濾、評估和專家參與、模型安全改進(jìn)以及監(jiān)測和執(zhí)行。數(shù)據(jù)顯示,與GPT-3.5相比,模型對不允許內(nèi)容的請求的響應(yīng)傾向降低了82%,而GPT-4對敏感請求(如醫(yī)療建議和自我傷害)的響應(yīng)符合政策的頻率提高了29%。
另外,OpenAI團(tuán)隊(duì)還聘請了 50 多位來自人工智能對齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國際安全等領(lǐng)域的專家,對該模型在高風(fēng)險(xiǎn)領(lǐng)域的行為進(jìn)行對抗性測試,從而為改進(jìn)GPT模型提供了依據(jù)。
“隨著我們繼續(xù)專注于可靠的擴(kuò)展,我們的目標(biāo)是完善我們的方法,以幫助我們越來越多地提前預(yù)測和準(zhǔn)備未來的能力——我們認(rèn)為這對安全至關(guān)重要。”OpenAI 表示。
生成式AI向超級AI快速演變
此前,有機(jī)構(gòu)認(rèn)為,GPT-4的發(fā)布有望成為生成式AI向超級AI快速演變的關(guān)鍵節(jié)點(diǎn)。
國盛證券指出,傳統(tǒng)模式下,視覺AI公司傾向于采用單點(diǎn)方式,在各個碎片場景中做客制化落地,定制化程度相對較高;若轉(zhuǎn)向大模型模式,GPT-4 的多模態(tài)能力有望帶來通用化的模式,顯著提升AI模型生產(chǎn)效率。
華鑫證券認(rèn)為,微軟有望在產(chǎn)業(yè)中通過GPT-4不斷拓展下游新興領(lǐng)域,應(yīng)用于更多的場景中,并利用其多模態(tài)模型成本改變傳統(tǒng) AI 客制化與定制化的特點(diǎn),逐步向通用化方向發(fā)展。
值得注意的是,隨著GPT-4轉(zhuǎn)向多模態(tài),未來輸入輸出出現(xiàn)圖像、視頻等形態(tài),AI有望打開下游千行百業(yè)應(yīng)用空間。
此外,更多機(jī)構(gòu)將AIGC視為最先受益賽道。華鑫證券表示,文生圖賽道作為AIGC概念下商業(yè)模式較成熟的領(lǐng)域,有望率先實(shí)現(xiàn)向C端落地。
德邦證券方面也認(rèn)為,GPT-4有望加速AIGC的應(yīng)用普及,并且在視頻內(nèi)容生成方面大放異彩,AIGC有望步入快速發(fā)展階段。