久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看

首頁 > 原創內容 > 原創內容 > 谷歌Gemini 3殺瘋了!陶哲軒親測:10分鐘干翻百年數學難題

谷歌Gemini 3殺瘋了!陶哲軒親測:10分鐘干翻百年數學難題

發布時間:2025-11-24 16:55:16來源: 19166238800

Gemini 3一日霸榜數學、物理兩個頂級基準測試!與此同時,陶哲軒用Gemini DeepThink十分鐘便搞定了一道埃爾德什難題。

繼續領跑!

Gemini 3本周一發布,便開啟了橫掃各大基準測試之旅,頻繁登上各種排行榜的榜首。

Gemini 3不僅跑分領先,面對網友的各種刁鉆實測也毫不拉胯。

用現實證明了自己就是目前最強模型!

這不,就在昨天,知名研究機構Epoch AI再添一力證——

Gemini 3 Pro在FrontierMath基準測試中創下新紀錄:Tier 1-3準確率達 38%,Tier 4達19%。

在綜合多項基準測試的Epoch能力指數(ECI)中,Gemini 3 Pro獲得154分,超越了GPT-5.1此前保持的151分的最高紀錄。

FrontierMath是由Epoch AI聯合眾多職業數學家打造的一個高級數學基準。

它由數百道原創、從未公開的難題構成,被設計成一塊專門測量AI高階數學推理能力的「試金石」。

這些題目幾乎覆蓋現代數學的主要分支:從需要大量計算的數論、實分析,到高度抽象的代數幾何、范疇論。

普通一道題就足以讓相關領域的研究者思考數小時甚至數天。

這些題目大概長這樣,大家可以感受一下。

完整數據集包含350道題:其中300題構成Tiers 1–3,難度大致對應從高年級本科到初級研究生水平。

另外50題被歸入極端困難的Tier 4,接近乃至達到數學的前沿研究問題。

為便于社區實驗,FrontierMath只開放了少量公開子集,其余題目則嚴格保密,用于評測。

在評測時,模型必須為每道題提交一個Python函數answer(),返回整數(通常)或SymPy等Python對象,由系統自動運行與校驗。

這一設計既允許模型調用代碼深度推理,又用程序化判分確保結果客觀可重復,使FrontierMath成為當前衡量AI數學前沿能力最嚴苛、也最具說服力的基準之一。

截至目前,FrontierMath排行榜上的領先模型,都是由Gemini和GPT系列占據。

從「跑分最強」到「實戰破題」

雖說Gemini 3確實很強,但只是一味的霸榜基準測試,還是差點意思。

至少,缺少點說服力。

還好,Gemini 3很快就在實戰中證明了自己。

就在昨天,數學大神陶哲軒發帖表示,他用Gemini Deepthink模式十分鐘,便解決了埃爾德什問題#367 的關鍵證明!

為了更清楚地說明這個過程,我們先來簡單了解一下埃爾德什問題#367。

簡單說就是把每個整數拆成積木,凡是只出現1次的積木丟掉,只留下能成對出現、能拼成平方的那一部分,叫B?(n)。

比如12=2×2×3,只留2×2,所以B?(12)=4。

現在看一小段連續整數n,n+1,…,n+k-1,對每個數算出B?,再把這些B?全部相乘。

埃爾德什問題#367 的問題是:不管這段連續整數多長,這個乘積是不是都不會比n²增長得更快?

也就是說:整數里「平方因子扎堆」的程度,天花板究竟在哪里?

為了更方便理解,我用最近最火的Nano Banana Pro畫了張信息圖。

大家看看怎么樣?

言歸正傳。關于這個問題,陶哲軒在帖子中給出了一條時間線。

11月20號,Wouter van Doorn用AI提出了該問題第二部分的反證,他的論證基于一個還未被證明的同余恒等式。

幾個小時后,陶哲軒將這個不等式交給了Gemini Deepthink。

只用了大概十分鐘,Gemini Deepthink便解決了這個證明。

太夸張了!

陶哲軒還附上了整個的論證過程。

論證地址: https://gemini.google.com/share/81a65aecfd70

看來這種問題對于Gemini 3還真算不上什么。

隨后,陶哲軒手動把證明轉化為了一個更加基礎的版本,花費了他半個小時的時間。

兩天后,Boris Alexeev最終完成了這個證明的Lean形式化,耗時2、3個小時。

陶哲軒用Gemini 3來研究埃爾德什難題,厲害之處不只是「AI 超會算」。

更重要的是:世界頂級數學家,真的把大模型當成工作伙伴了。

以后做數學,不再只是一個人苦苦推導。

而是把枯燥的枚舉、嘗試、檢驗丟給AI,人類集中精力抓核心思路、做關鍵判斷。

誰先學會和這類工具高效協作,誰就等于多了一個「超級合作者」。

數學之外的物理「試金石」

在登頂數學基準測試的同時,Gemini也霸榜了一項最新的物理基準測試——CritPt。

CritPt的誕生基于研究者們開始追問一個問題:大模型真的能像物理學家那樣,完整推進一場前沿研究嗎?

其全稱為 「Complex Research using Integrated Thinking – Physics Test」,要測的,正是 AI 從「像樣回答」跨越到「真正推理」的那道臨界線。

目前已在Artificial Analysis平臺上線。

與以往基于教科書或公開題庫的物理題庫不同,CritPt是首個專門面向「未公開、真研究級」物理問題的大模型基準。

它由來自阿貢國家實驗室、伊利諾伊大學厄巴納-香檳分校等三十多家機構的五十余位活躍物理學者共同打造,涵蓋凝聚態、量子、原子分子與光學、天體物理、高能物理等現代物理的十一大分支。

每道題目都像是交給一名優秀物理學博士新生的一次獨立小課題:需要建模、推導、近似與跨領域聯想,卻又保證答案可機讀、可自動嚴格判分。

CritPt測試的挑戰示例如下圖所示。

不出意外,Gemini 3 Pro再次霸榜該項物理研究測試。

同樣的,GPT-5.1緊隨其后。

看來,這兩模型還真是代表了當前最前沿的模型水平。

不過,雖然登頂了CritPt,Gemini 3 Pro的成績也才有9.1%,與滿分表現還有些距離。

原創內容更多>>

全球汽車供應鏈或面臨新一輪沖擊,這次原因是AI數據中心 廣汽埃安與滴滴自動駕駛聯手打造,Robotaxi R2正式交付 Rivian提交新專利:電動獨立開啟尾門玻璃及物理控制組件 2025年俄羅斯汽車市場多項指標下滑:新車銷量、汽車信貸及皮卡銷量同比減少 加州累計零排放汽車銷量突破250萬輛 充電設施持續擴建 九識智能正式進駐阿布扎比,RoboVan開啟常態化運營 日元貶值推動豐田加速印度本土化與出口,首款國產電動車即將上市 起亞在韓國下調多款電動車售價以應對市場競爭 為何特斯拉、小米、理想、小鵬都力推“7年超低息”貸款? 6大趨勢詳解:誰說手機行業沒有新東西了? 從“死了么”到合川呆呆,2026年的第一場流量“圍獵” 2025年汽車產銷量再創歷史新高 連續17年穩居全球第一 馬斯克:特斯拉將在2月14日后停售FSD,此后僅提供月度訂閱方式 “死了么”將更名Demumu,估值已達數千萬 1688發布“三保”搶跑計劃,王強:AI驅動產業帶商家呈現K型分化 榮耀500 Pro MOLLY 20周年款定于1月19日發布 趙長江:自己天天學習華為,最大的挑戰“在于我自身” “Arrow Lake Refresh” 雙旗艦:英特爾酷睿Ultra 9 290K/290HX Plus處理器現身 王自如回應曾稱看董明珠很幸福:到今天都堅定這個觀點 歐洲汽車零部件行業持續“失血”,近兩年裁員逾10萬人 雙巨頭加碼AI!黃仁勛披露要與聯想集團聯合發布“革命性服務器”,未來2年合作規模再翻5倍 雷軍直播拆車后,小米汽車的“王牌”也真正打出來了! OpenAI首款硬件曝光,前蘋果傳奇設計師操刀 華碩計劃CES推出WiFi 8路由器,但相關標準還沒確定 三星發布全球首款130英寸Micro RGB電視!支持100% BT.2020色域 firefly螢火蟲右舵車量產,首批將發運至新加坡市場 輕舟智航攜手奇瑞商用車,打造量產級L4無人物流車 王曉玲接任長安馬自達執行副總裁,推動新能源戰略落地 美團騎手“不闖紅燈”安全激勵活動通知,騎手保持零闖燈記錄每天可獲現金獎勵 比亞迪元 UP DM-i(BYD ATTO 2 DM-i)歐洲發布會,并同步發布長續航純電版(BYD ATTO 2 Comfort)
久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看
911精品国产| 国产精品毛片一区二区在线看| 亚洲伦乱视频| 91亚洲成人| a日韩av网址| 亚洲深夜视频| 久久男人av资源站| 成人羞羞视频播放网站| 国产一区二区三区精品在线观看| 国产精品tv| 你懂的亚洲视频| 国产精品成人一区二区不卡| 天堂√8在线中文| 欧美日韩国产v| 久久美女精品| aⅴ色国产欧美| 视频一区日韩| 欧美亚洲综合视频| 嫩草伊人久久精品少妇av杨幂| 国产精品久久久网站| 国产欧美日韩| 国产精品久久久久久久免费观看 | 国产精品一区二区av交换| 欧美一级二区| 国产高清精品二区| 国产在线观看www| 香蕉久久99| 久久成人亚洲| 青青草91视频| 精品久久美女| 日韩欧美午夜| 日韩中文字幕亚洲一区二区va在线| 日本亚州欧洲精品不卡| 国产精品高潮呻吟久久久久| 天堂中文av在线资源库 | 正在播放日韩精品| 午夜国产精品视频| 日本不卡在线视频| 国产一区国产二区国产三区| 欧美午夜精彩| 日韩国产精品久久久久久亚洲| 精品国产99| 亚洲少妇诱惑| 国产精品久av福利在线观看| 久久蜜桃精品| 日韩不卡在线观看日韩不卡视频| 国产一区二区三区天码| 亚洲精品一区二区在线看| 日本亚州欧洲精品不卡| 国产精品白浆| 99精品综合| 日韩成人一级| 久久一区二区中文字幕| 日本精品国产| 1000部精品久久久久久久久| 欧美偷窥清纯综合图区| 欧美日韩在线网站| 你懂的国产精品永久在线| 亚洲主播在线| 成人国产综合| 日韩国产欧美一区二区三区| 欧美肉体xxxx裸体137大胆| 欧美一区在线观看视频| 国产综合亚洲精品一区二| 亚洲久久一区| 久久久一本精品| 欧美一区自拍| 国产午夜精品一区二区三区欧美 | 国产精品一卡| 亚洲精品国产嫩草在线观看| 亚洲1区在线观看| 成人在线网站| 久久wwww| 综合欧美亚洲| 狠狠久久婷婷| 精品亚洲自拍| 日韩区欧美区| 久久国产亚洲| 精品一二三区| 日韩一区中文| 欧美日韩国产高清电影| 精品国产99| 清纯唯美亚洲综合一区| 日韩亚洲国产欧美| 成人久久一区| 麻豆精品视频在线观看免费| 一区二区三区四区日本视频| 97成人超碰| 视频一区在线视频| 国产亚洲一区二区手机在线观看 | 伊人久久大香线蕉av不卡| 久久av导航| 亚洲精品激情| 国产视频亚洲| 蜜臀av免费一区二区三区| 国产精品福利在线观看播放| 国产欧美一级| 日韩精品成人| 亚洲涩涩av| 视频在线观看一区| 国产精品日韩| 91嫩草精品| 日本久久二区| 日韩精品久久理论片| 亚洲人成网站在线在线观看| 国产精品日本| 免播放器亚洲| 久久国产成人| 欧美日韩视频一区二区三区| 中文av在线全新| 国产不卡精品| 荡女精品导航| 色婷婷综合网| 日韩av片子| 国产a亚洲精品| 麻豆一区二区三区| 国产欧美一区二区三区米奇| 日韩精品三级| 国产欧美日韩在线一区二区| 欧美精品影院| 国产精品欧美一区二区三区不卡| 国产人成精品一区二区三| 日韩高清不卡一区二区| 日韩精品久久久久久| 日韩精品免费视频一区二区三区 | 亚洲www啪成人一区二区| 精品国产一区二区三区噜噜噜| 国产亚洲一区二区三区啪| 欧美午夜三级| 国产午夜精品一区在线观看| 国产欧美日韩一级| 国产激情综合| 国产精品久久久久久久久妇女| 岛国av在线网站| www成人在线视频| 不卡一区综合视频| 性欧美长视频| 日韩欧美另类中文字幕| 亚洲人亚洲人色久| 欧美精品影院| 国内不卡的一区二区三区中文字幕| 精品一区二区三区亚洲| 国产精品久久久久蜜臀| 日本精品在线中文字幕| 欧美 日韩 国产一区二区在线视频| 激情五月综合| 免费成人在线视频观看| 日韩精品午夜视频| 国产精品欧美日韩一区| 精品视频自拍| 欧美成人精品三级网站| 欧美日韩国产在线一区| 日韩在线电影| 美女视频网站久久| 久久精品123| 免费一级片91| 国产日韩欧美高清免费| 精品视频免费| 亚洲性视频h| 婷婷综合国产| 精品久久免费| 一区久久精品| 欧美精品影院| 麻豆精品蜜桃| 亚洲免费一区三区| 鲁大师精品99久久久| 国产 日韩 欧美一区| 久久亚洲二区| 久久99久久人婷婷精品综合| 日韩精品一区二区三区免费观看| 性欧美长视频| 国产福利一区二区三区在线播放| 成人日韩精品| 日韩中文字幕一区二区高清99| 国产一区二区三区免费在线| 99精品99| 国产精品白浆| 在线亚洲欧美| 久久伊人久久| 99国产精品| 黄色欧美在线| 蜜臀a∨国产成人精品| 久久中文字幕导航| 99在线|亚洲一区二区| 美女久久99| 蜜臀精品一区二区三区在线观看 | 日韩高清在线一区| 日韩精品中文字幕第1页| 亚洲一区二区三区四区电影 | 欧美日本不卡| 日韩三区免费| 午夜天堂精品久久久久| 98精品视频| 日韩欧美三区| 国内亚洲精品| 精品中国亚洲| 亚洲精品伊人| 亚洲福利一区| 精品国产乱码久久久| 亚洲有吗中文字幕|