9.11和9.9哪个大？简单数学题8家AI大模型平台都翻了车(9.9跟9.99有什么区别)

红星资本局7月17日消息，今日，AI大模型在数学上的翻车话题引发不小关注。
一道“9.11和9.9哪个大”的简单数学题，竟困住了海内外一众AI大模型平台。
数学偏科8个大模型全答错9.11和9.9哪个更大？据第一财经报道，就这一问题，12个大模型中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。
目前全球公认第一梯队的大模型ChatGPT，在被问到“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。
追问ChatGPT有没有其他比较方法后，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。
再看国内的大模型，例如询问月之暗面旗下kimi，它在比较小数部分时认为，9.11的第一位小数是1，而9.9的第一位小数是0，错误地给出了小数，得出结论9.11更大。
当质疑并提出常识后，kimi转而开始表示自己回答有误，并给出了正确的比较方法。
询问字节豆包，它不仅给出了答案，还举了生活中的例子方便理解，单看似有理有据实则胡说八道。
豆包举例认为，假设有两笔钱，“9.11元比9.9元多0.21元”，并且测量长度时“9.11米要比9.9米长”。
商汤商量大模型首先给出了错误答案，当追问具体是如何比较的后，它在推演过程中成功得出小数0.11小于0.9，但话锋一转称“所以9.11大于9.9”。
当指出了这个前后逻辑问题，商量随后承认“解释有误”。
值得注意的是，就在上月，AI大模型也因为数学翻车话题火上了热搜。
6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排名二三位。
但引发关注的是，从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格。
业内人士：一段时间内不会得到明显改善此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大

更多相关资讯

发布招标得免费设计

最新文章

更多装修专区

点击排行

关于装修网

新手上路

帮助中心

微信服务号