其他
酷玩实验室原创作品大模型又双叒叕进化了。OpenAI凌晨发布新一代大模型,据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼,发布即可用。那就让我们看看这个新模型到底是怎么个事!草莓计划其实这次OpenAI的发布早有"预谋",在萨姆奥特曼的twitter上,一直都在暗示,即将有一款名为"草莓"的AI项目与大家见面!这草莓是啥呢?就是之前一直传言中可以"媲美"人类,达到AGI(通用人工智能)的大模型。草莓的使命,就是让AI具有推理,规划,甚至是自我学习的能力,从而帮助人类在医疗,科研,教育等有着更快更大的突破。今天凌晨,我们终于看到了"草莓",只不过它的名字不是GPT5,而是o1。根据官方的介绍,o1在推理相关的问题上,比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中,以前GPT4o平均只能在15道题答对1.8道,而o1的正确数量飙升到了12.5,如果微调下,o1可以超过美国高中生数学奥林匹克的分数线。同样地,在编码比赛中,分数也从以前的11分干到了现在的89分,在博士级别的问答中,它也可以超过人类专家。在信息奥林匹克上,经过微调的o1,分数整整提高到了1000分。这是什么概念呢?在人类中,只有7%的参赛者比AI强,剩下的93%都被AI击败了!看完这些,我突然有种第一次见到Sora感觉,这视频真是AI生成的?人类智商最后的防线,就这么被AI攻破了?是不是OpenAI看AI要崩了,又一次画的大饼?答案是什么,只有测过,才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后,就全量推送给订阅用户,也就是说,任何人交上20美元,就可以立刻体验到这个划时代的大模型。测试完,我有点慌了那就废话少说,直接开测,学渣还是Jumping,我们一测便知!我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是,目前推送的是o1预览版,它的推理能力和正式版还有些许差距,所以将来看到的o1会比现在更强。目前的o1还不能看图,所以这次我们把数学公式转换成LaTex格式,交给AI解答,并且今年新课标1卷的试题中,有两道是需要看图的,刨除这两道题的分数,总分在129分。在题目输入对话框后,可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题,它会先分析题目,然后再找需要用到知识。以这道题来讲,需要用的就是正态分布的知识,然后再去计算概率。在这里也简单放下这道题o1的思考过程,大家可以看下,它整体的思路和人类思考确实非常像!给AI的卷子判完,我直接慌了!91分!如果转换到150分,那就是105分呀,这已经超过我当年的高考分数了。阿里巴巴数学竞赛的题比较特殊,其中大部分都是证明题,没有固定答案,所以我们就测试了6道具有准确答案的题,像下面这种:答题的整个过程,和人类非常相似,概率论与数理统计忘光的我,基本上也能看明白个大概。最终6个问题,o1回答对了3个,正确率在50%,虽然没有超过姜萍的93分,但作为AI来讲,也非常不错了,毕竟是国际数学比赛。测完下来,感觉和AI相比,我自己像个弱智!当年我高考数学90多分,结果AI不仅在10分钟内做完题,还考了100多分。我连题目都看不懂的数学竞赛题,它能答对一半,虽然不如姜萍,但也能秒杀大部分人了。说好的AI推理能力不如5岁小孩呢?OpenAI怎么突然就让AI推理能力,噌噌的,超过我这个360个月的婴儿了呢?思维链,下个大模型的突破点这其中的秘密就在于思维链(Chain