9款大模型做這道高考數學題:8家都翻車了 只有ChatGPT一次做對快訊
豆包、百小應、ChatGPT首次解答給出了正確答案,文心一言在第二次解答時給出了正確答案,給出了正確答案B 2、通義 首次解答。
【TechWeb】6月8日消息,讓AI大模型產品秒寫高考作文已經不是難事,那么用它們做高考數學題又會是什么效果呢?
昨日,TechWeb用百度文心一言、阿里通義、騰訊元寶、字節豆包、360智腦、ChatGPT這6大神器寫了2024年高考全國語文新課標I卷的作文供大家賞析。截至目前,騰訊元寶獲贊票數最多,百度文心一言排名第二。
昨日下午,2024年高考數學已經順利考完,討論數學題的遠沒有討論作文題的熱度高,畢竟此時在電腦/手機前還會做高考數學題的人也不多了吧。
那就把這些難題丟給擁有超能力的AI大模型產品們。
我們再用百度文心一言、阿里通義、騰訊元寶、字節豆包、360智腦、ChatGPT,再加2款國產大模型產品百川智能百小應、零一萬物萬知,另外還有專攻K12數學的好未來(學而思母公司)的九章大模型,總計9大神器,來做2024年高考數學題,看看他們的水平如何,會不會翻車。
在這里,我們一共進行了2道數學題的測試。
第一題,2024年高考新課標1卷數學卷的一道填空題:
甲、乙兩人各有四張卡片,每張卡片上標有一個數字,甲的卡片分別標有數字 1,3,5,7,乙的卡片上分別標有數字2,4,6,8,兩人進行四輪比賽,在每輪比賽中,兩個各自從自己持有的卡片中隨機選一張,并比較所選卡片的數字的大小,數字大的人得1分,數字小的人得0分,然后各自棄置此輪所選的卡片(棄置的卡片在此后的輪次中不能使用).則四輪比賽比賽后,甲的總得分小于2的概率為多少?
網上名師給出的該題答案為1/2。
用AI產品來算,原本以為算概率這種事情,應該是計算機最擅長的了。結果,國內的8款大模型全部翻車,只有ChatGPT答對!
第二題,2024年高考新課標1卷數學卷的一道選擇題,如下圖:
網上名師給出的該題答案為B。
這題,豆包、百小應、ChatGPT首次解答給出了正確答案,文心一言在第二次解答時給出了正確答案。
注,因為360智腦、萬知PC端產品不支持上傳圖片的功能,第二道題的測試不含這2款產品。
小結:
此次2道高考數學題的測試效果總結如下:
整體看來,國內大模型產品解答數學題的能力還遠沒有達到高中生水平,還要加油啊。
下面附上各AI產品的具體答題情況:
第一題
1、文心一言的解答如下

2、阿里通義的解答如下

3、騰訊元寶的解答如下

4、字節豆包的解答如下

5、360智腦的解答如下

6、百小應的解答如下

7、萬知的解答如下

8、九章大模型的解答如下

9、ChatGPT的解答如下
第二題的解答情況:
1、文心一言
首次解答,給出了答案A。
第二次解答,給出了正確答案B


2、通義
首次解答,判定選項無正確答案;
第二次解答,給出了錯誤答案A。


3、元寶
兩次解答,均沒能給出正確答案。


4、豆包
首次就回答正確,點個贊!

5、百小應
給出了正確答案B。
仔細閱讀它的計算過程,在得出正確答案前,有1次因計算結果與選項中任何一個都不匹配,而再次檢查重新計算的自我修正。還不錯。


6、九章大模型
兩次均未能給出正確答案,始終堅定選擇答案A。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。