OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少 Altman：下周再增數萬GPU

熱點 2025年02月28日 07:00 28 admin

　　來源：華爾街見聞

　　OpenAI周四在System Card報告中推出OpenAI GPT-4.5的研究預覽版，這是其迄今最大、知識最豐富的模型，現已向每月訂閱費用200美元的ChatGPT Pro訂閱用戶開放。

　　下周，該模型也將向每月20美元的ChatGPT Plus訂閱用戶開放。OpenAI首席執行官Altman表示，屆時該公司將增加數萬塊GPU，提供算力支撐。

　　情商更高、幻覺更少

　　OpenAI表示，在GPT-4o的基礎上，GPT-4.5進一步擴展了預訓練，并被設計成比其強大的stem推理模型更通用。早期測試表明，與GPT-4.5互動感覺更自然。它擁有更廣泛的知識庫，更符合用戶意圖，情商更高，因此非常適合寫作、編程和解決實際問題等任務，而且幻覺更少。

　　例如，在面對“我考試失敗了，心情很低落”這樣的輸入時，OpenAI 之前的模型會立即嘗試解決問題。而新模型 GPT-4.5 會先詢問用戶是否想聊聊這個問題，還是需要一些分散注意力的方法。研究人員認為，這種回應顯示出更高的情感智能。

　　在早期測試中，該模型的“幻覺率”——即AI系統生成不準確信息的概率——為37%，相比之下，其前代模型GPT-4o的幻覺率接近60%。OpenAI在博客中表示，

　　成本太高 Altman：下周再增數萬GPU 支撐算力

　　GPT-4.5最初將作為“研究預覽版”，提供給一小部分軟件開發者以及支付每月200美元訂閱費用的ChatGPT Pro用戶。該公司計劃從首批試用者那里收集反饋。

　　OpenAI首席執行官Altman也在X平臺發文說，將在下周正式發布GPT-4.5的時候增加數萬塊GPU：

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少 Altman：下周再增數萬GPU

　　OpenAI在2022年底推出ChatGPT，引發了生成式AI的狂熱潮流，該工具最初基于GPT-3.5模型運行。自那以來，該公司陸續發布了一系列日益先進的系統，包括多個模擬人類推理過程的選項。但OpenAI如今正面臨來自中國新興企業DeepSeek、馬斯克旗下的xAI以及Anthropic等競爭對手的激烈競爭，這些公司近幾周都相繼推出了新的AI模型。周一，Anthropic發布了Claude 3.7 Sonnet，而在上周，馬斯克旗下的xAI也推出了最新模型Grok 3。

　　吹牛吹過頭？基準測試部分表現不如DeepSeek、Anthropic及o系列模型

　　在GPT-4.5之前，每一代GPT模型的擴展都會帶來跨數學、寫作和編程等多個領域的巨大性能提升。然而，從多個跡象來看，單純依賴數據和計算能力的擴展所帶來的收益正在逐步減少。在多個AI基準測試中，GPT-4.5的表現不及DeepSeek、Anthropic以及OpenAI自身開發的新一代推理模型。

　　OpenAI研究副總裁Nick Ryder向媒體表示，他預計GPT-4.5的能力提升幅度將與GPT-3.5升級至GPT-4時的變化相當，而GPT-4是在2023年初發布的。OpenAI強調，GPT-4.5不是GPT-4o的直接替代品，后者仍然是公司API和ChatGPT平臺的主力模型。

　　從性能上看，GPT-4.5在多個方面超過了GPT-4o及其他許多AI模型。例如，在OpenAI的SimpleQA基準測試（該測試考察 AI 在處理簡單、事實性問題時的準確度）中，GPT-4.5的表現優于GPT-4o和OpenAI的推理模型o1、o3-mini。

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少 Altman：下周再增數萬GPU

　　然而，OpenAI并未公布其最先進的AI推理模型deep research在SimpleQA測試中的表現。OpenAI發言人告訴媒體，公司尚未公開deep research在該基準測試中的得分，并表示這一對比不具備參考價值。值得注意的是，AI初創公司Perplexity的Deep Research模型在此測試中的表現優于GPT-4.5。

　　在編程能力方面，GPT-4.5在SWE-Bench Verified基準測試（測試AI在編程問題上的能力）上與GPT-4o和o3-mini表現相當，但遜色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer編程測試（衡量AI生成完整軟件功能的能力）上，GPT-4.5超過了GPT-4o和o3-mini，但仍不及deep research。

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少 Altman：下周再增數萬GPU

　　在一些學術基準測試（如AIME和 GPQA）上，GPT-4.5的表現不及領先的AI推理模型，如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet（技術上屬于混合模型）。不過，在數學和科學相關問題上，GPT-4.5的表現仍然處于領先水平，與其他非推理模型相比表現更優。

　　打造過程充滿挑戰

　　打造GPT-4.5的過程充滿挑戰。彭博新聞此前報道稱，該模型在公司內部被稱為“Orion”，但在去年未能達到OpenAI設定的性能基準。例如，截至去年夏天，Orion在回答其未受訓練的編程問題時表現不佳。據知情人士向媒體透露，OpenAI和其他開發人員面臨的一個關鍵問題是如何找到新的、高質量的訓練數據來源，以開發更先進的AI系統。

　　對此，GPT-4.5采用了與其前代模型（包括 GPT-4、GPT-3、GPT-2 和 GPT-1）相同的核心技術，即在“預訓練”階段大幅增加計算能力和數據量的“無監督學習”方法。在這一過程中，系統會結合人類反饋來優化回答內容，并調整模型與用戶互動的語氣等。此外，該公司還想出了一些新方法，利用從GPT-4.0訓練數據中提取的信息來進一步訓練GPT-4.5。OpenAI研究副總裁Mia Glaese表示，這一方法有助于改進模型的整體表現。

　　分析認為，GPT-4.5的發布標志著OpenAI時代的一個轉折點。本月早些時候，Altman在X平臺發文稱，這將是公司推出的最后一個不依賴額外計算能力來“思考”查詢后再回答的模型。OpenAI已在一些較新的模型（如o1和o3）中采用了這一推理方法。

　　未來，OpenAI計劃在今年晚些時候發布GPT-5，將把GPT系列模型與o系列模型結合，構建能夠自主判斷需要思考多久再生成回答的AI系統。Altman表示，這一目標是為了簡化用戶體驗，讓用戶不必在越來越復雜的選項列表中進行選擇。

　　目前，OpenAI正在與軟銀（SoftBank）及其他投資者洽談融資，計劃籌集高達400億美元，使其估值達到3000億美元（包括新融資在內）。與此同時，Anthropic也在進行一輪約35億美元的融資，估值超過600億美元，兩位知情人士向媒體透露。

標簽：數萬

“撞”出流量后：理想隔空邀約再撞，乘龍卡車內涵“活著，才有資格談理想”

歡迎使用Z-BlogPHP！

發表評論

国产午夜亚洲精品午夜鲁丝片,太粗要好深好爽要到了,国产免国产免费,人人澡人人妻人人爽人人蜜桃麻豆

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少 Altman：下周再增數萬GPU

“撞”出流量后：理想隔空邀約再撞，乘龍卡車內涵“活著，才有資格談理想”

歡迎使用Z-BlogPHP！

標簽列表

熱門文章

友情鏈接

国产午夜亚洲精品午夜鲁丝片,太粗要好深好爽要到了,国产免国产免费,人人澡人人妻人人爽人人蜜桃麻豆

OpenAI推出GPT4.5研究預覽版 情商更高、幻覺更少 Altman：下周再增數萬GPU

“撞”出流量后：理想隔空邀約再撞，乘龍卡車內涵“活著，才有資格談理想”

歡迎使用Z-BlogPHP！

標簽列表

熱門文章

友情鏈接

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少 Altman：下周再增數萬GPU