久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看

首頁 > 技術知識 > 技術知識 > GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

發布時間:2025-08-13 16:26:53來源: 13966578800

別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

有人發現,官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。

什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

現在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現在僅有0.4%的差距。

OpenAI這種自行忽略23道題的操作,已經不是第一次了。

早在GPT-4.1發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。

離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統評估模型的編程能力,所以決定自己再提煉一個子集。

現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

本來以為GPT-5直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?

OpenAI一直省略23個問題

已經開始有網友發現,GPT-5能力并不比Claude 4.1 Opus好多少。

現在來看,這個官方給的結果或許根本沒有參考價值。

網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。

而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發布時一樣,因為他們內部的基礎設施運行不了剩下的23個問題。

今年4月份發布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數值放在當時也是最高的。

而Anthropic這邊,其實也已經發現了OpenAI這個操作。

就在Claude Opus 4.1發布公布編程成績之時,在文章的末尾有這么一句話。

對于Claude 4系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規劃工具”。

并在最后注明:在所有Claude 4模型中,他們報告的分數基于完整的500個問題。OpenAI模型的得分基于477道問題的子集進行報告

基準還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。

當時啊還是因為類似的原因——他們測試發現SWE-bench的一些任務可能難以解決甚至無法解決,導致SWE-bench無法系統性評估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

他們共同發起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了1699個樣本,然后基于統一標準來進行標注。

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。

最終得到了500個經過驗證的樣本,并且按照難度對數據集進行細分。“簡單”子集包含196個小于15分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。

結果現在這個子集又被OpenAI縮減了。

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

在這個榜單中,Claude 4 Opus還是占據著領先位置。

GPT-5也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。

技術知識更多>>

意優科技發布三大量產關節方案 韓國將充電設施補貼與性能標準掛鉤,未達標設備不得享受支持 ?佛瑞亞新項目簽約落地常熟,配套奇瑞新能源 奕境首款車型預告圖公布,定位家庭旗艦大六座SUV 廣汽集團:與華為合作暫不涉及渠道領域 比亞迪2025年菲律賓銷量達26,122輛,躍居當地車企銷量第三位 受益于機器人,現代汽車股價一月飆漲60% 奧迪2025年全球交付約162萬輛汽車,同比下降2.9% 小鵬今年將推4款新車,沖擊55萬-60萬銷量目標 中汽信息研究所:建議擴大L3在典型城市群和特定場景下的試點范圍 IDC:2025年華為重返中國市場第一,OPPO四季度增長超10% 華爾街日報:韓國押注“主權AI”,卻發現本土大模型引用中國代碼 “死了么”引發美媒關注,《連線》采訪創始人:被60多家投資者接觸、將整合AI 王小川押注嚴肅醫療,AI能比普通醫生強嗎? 榮耀AI鍵新功能曝光,一鍵啟動BOOST模式 vivo更激進了,2億像素+100倍變焦+6510mAh,旗艦新機“一跌再跌” 2nm芯片太貴了!部分廠商下代旗艦繼續用3nm處理器 法雷奧溫嶺工廠擴建項目正式落成并投產 雷諾任命新戰略與產品負責人 極豆科技完成近億元新一輪融資,國際芯片巨頭領投,加速汽車座艙AI技術迭代與全球化布局 車企“不務正業”,是焦慮還是遠見? 耐世特亞太區智能制造總部項目在蘇州正式奠基 余承東不云游,雷軍缺席,廣州車展“寂寞到底”? 對話樂道沈斐:把純電和換電做好,根本不用做增程 仰望U8L新增平行橫移功能:至多3米 不支持自動剎停 在廣州車展期間,小米YU7 Max紫水晶首次對外展出 智元機器人推出靈心平臺:用戶可零代碼定制機器人“靈魂”與人設 蘋果與OpenAI恩怨加深:硬件部門遭全方位挖角,小程序抽成目標不只是騰訊 3D打印鈦金屬殼,蘋果新工藝太炸裂了:不只是改變手表 Meta內部文件:1年靠詐騙廣告賺約160億美元 每日曝光150億則
久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看
日韩视频二区| 日韩免费福利视频| 91一区二区三区四区| 日韩精品福利一区二区三区| 蜜臀久久99精品久久久画质超高清| av不卡在线| 日韩国产在线观看一区| 国产成人精品免费视| 中文字幕亚洲在线观看| 丝袜美腿亚洲色图| 欧美激情另类| 国产精品精品| 免费观看不卡av| 亚洲欧美日韩一区在线观看| 亚洲精品美女91| 欧美在线观看天堂一区二区三区| 911亚洲精品| 久久免费福利| 久久午夜影院| 国产一区亚洲| 妖精视频成人观看www| 国产精品一区二区三区av麻| 中文字幕在线视频网站| 在线综合视频| 荡女精品导航| 免费在线观看精品| 久久一区国产| 美女国产一区| 欧美日韩在线网站| 国产精品日本一区二区三区在线| 免费毛片在线不卡| 国产精品亚洲片在线播放| 亚洲精品一区二区在线播放∴| 水野朝阳av一区二区三区| 久久婷婷国产| 综合日韩av| 蜜臀国产一区| 久久黄色影视| 中文字幕中文字幕精品| 免费视频亚洲| 久草免费在线视频| 国产乱人伦精品一区| 欧美日韩国产高清电影| 国产欧美日韩亚洲一区二区三区| 免费观看不卡av| 成人污污视频| 国产精品片aa在线观看| 在线亚洲免费| 国产亚洲久久| 国产婷婷精品| 婷婷中文字幕一区| 桃色一区二区| 中文字幕av一区二区三区人| 亚洲激情精品| 婷婷综合在线| 中文字幕av一区二区三区四区| 免费美女久久99| 久久香蕉精品| 亚洲我射av| 亚洲人亚洲人色久| 日本不卡视频在线| 日本亚洲欧美天堂免费| 蜜芽一区二区三区| 99成人超碰| 亚洲二区在线| 欧美日韩激情| 国产农村妇女精品一二区| 一区二区三区四区在线观看国产日韩| 香蕉久久久久久久av网站| 免费久久精品| 亚洲精品国产精品粉嫩| 国产午夜久久av| 色爱综合网欧美| 中文在线不卡| 婷婷精品进入| 欧美成人国产| 蜜臀av一区二区在线免费观看| 亚洲一区日本| 亚洲国产一区二区在线观看| 午夜精品网站| 欧美日韩午夜| 色一区二区三区四区| 久久亚洲在线| 蜜桃视频一区二区| 国产剧情一区| 久久青草久久| 日韩制服丝袜av| 国产精品sss在线观看av| 精品视频网站| 激情久久五月| 日韩精品免费一区二区夜夜嗨 | 亚洲一区二区三区免费在线观看| 国产视频一区欧美| 欧美国产中文高清| 蜜桃tv一区二区三区| 国产乱码精品一区二区三区四区 | 亚洲精品伊人| 欧美aaaaaa午夜精品| 99免费精品| 丝袜a∨在线一区二区三区不卡| 日韩专区视频网站| 日韩精品第一区| 日韩精品欧美大片| 日韩伦理一区| 日本色综合中文字幕| 另类中文字幕国产精品| 日韩国产成人精品| 91精品高清| 久久精品免费看| 视频一区欧美日韩| 日本а中文在线天堂| 国产乱人伦精品一区| 视频一区二区三区在线| 亚洲福利一区| 国产专区精品| 青青国产91久久久久久| 亚洲欧美日韩国产一区| 国产亚洲一区二区手机在线观看| 日韩av网站免费在线| 亚洲专区视频| 免费成人在线观看| 免播放器亚洲一区| 天堂av在线一区| 午夜国产一区二区| 免费国产自久久久久三四区久久 | www.51av欧美视频| 伊人久久在线| 国产精品免费99久久久| 日韩va亚洲va欧美va久久| 日韩影院精彩在线| 亚洲尤物av| 日本在线视频一区二区| 综合激情一区| 日本va欧美va欧美va精品| 欧美欧美黄在线二区| 国产精品资源| 精品久久99| 日韩在线不卡| 亚洲高清久久| 亚洲一区免费| 日韩欧美中文在线观看| 国产精品羞羞答答在线观看| 国产精品videossex久久发布| 国产精品亲子伦av一区二区三区| 国产精品视频一区二区三区四蜜臂| 日韩av网站在线观看| 国产精品99久久免费观看| 日韩1区在线| 欧美日韩国产综合网| 欧美一级网站| 高潮一区二区| 美女精品一区| 国产精品久久久亚洲一区| 在线天堂中文资源最新版| 亚洲精品一二三区区别| 日韩高清一区二区| 国产成人久久精品一区二区三区| av综合电影网站| 日韩精品一区第一页| 日韩av有码| 日韩精品一区二区三区中文字幕| 精品久久中文| 亚洲制服少妇| 国产aⅴ精品一区二区四区| 亚洲欧美视频一区二区三区| 国产精品久久777777毛茸茸| 亚洲午夜视频| 美日韩一区二区三区| 久久亚洲风情| 国产资源在线观看入口av| 免费高清在线一区| 国内亚洲精品| 国产福利一区二区精品秒拍| 久久国产亚洲| 国产精品亚洲成在人线| 国产麻豆久久| 国产成人精品999在线观看| 欧美在线91| 日韩一区欧美二区| 国产精品7m凸凹视频分类| 精品视频自拍| 国产亚洲电影| 亚洲精品麻豆| 欧美日韩四区| 999久久久91| 中文在线中文资源| 日韩av首页| 国产精品国产一区| 久久国产99| 五月婷婷六月综合| 一区二区三区视频免费观看| av高清一区| 欧美成人久久| 久热综合在线亚洲精品| 中文一区一区三区免费在线观 | 欧美日韩免费观看一区=区三区| 欧洲精品一区二区三区| 久久福利在线| 国产精品手机在线播放| 麻豆极品一区二区三区|