红星资本局7月17日消息,今日,AI大模型在数学上的翻车话题引发不小关注。
一道“9.11和9.9哪个大”的简单数学题,竟困住了海内外一众AI大模型平台。
数学偏科8个大模型全答错9.11和9.9哪个更大?据第一财经报道,就这一问题,12个大模型中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。
目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。
追问ChatGPT有没有其他比较方法后,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。
再看国内的大模型,例如询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1,而9.9的第一位小数是0,错误地给出了小数,得出结论9.11更大。
当质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。
询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。
豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11米要比9.9米长”。
商汤商量大模型首先给出了错误答案,当追问具体是如何比较的后,它在推演过程中成功得出小数0.11小于0.9,但话锋一转称“所以9.11大于9.9”。
当指出了这个前后逻辑问题,商量随后承认“解释有误”。
值得注意的是,就在上月,AI大模型也因为数学翻车话题火上了热搜。
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。
但引发关注的是,从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格。
业内人士:一段时间内不会得到明显改善此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大