你的位置:兰花雅韵 > 新闻 >

推理水平对标OpenAI o1!阿里云开源首个AI推理模子QwQ

推理水平对标OpenAI o1!阿里云开源首个AI推理模子QwQ

快科技11月28日音信,今天,阿里云通义团队晓示推出并同步开源了全新的AI推理模子——QwQ-32B-Preview。

评测露馅,预览版块的QwQ(Qwen with Questions)在科学推理才略上展现出扣问生水平,尤其在数学和编程畛域推崇超卓,其合座推理才略可与OpenAI的o1相失色。

据先容,QwQ是通义千问Qwen大模子最新推出的试验性扣问模子,亦然阿里云首个开源的AI推理模子。

阿里云通义千问团队扣问发现,当模子有迷漫的时分想考、质疑和反想时,其对数学和编程的判辨就会深化,基于此QwQ赢得了料理复杂问题的打破性进展。

在猜测科常识题料理才略的GPQA评测采集,QwQ达到了65.2%的准确率,露馅出其扣问生水平的科学推理才略;在AIME评测中,QwQ以50%的胜率阐发了其料理数常识题的才略。

在MATH-500评测中,QwQ以90.6%的高分越过了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中,QwQ答对了一半的题目,在编程竞赛题场景中也有出色推崇。

不仅如斯,QwQ在靠近复杂问题时,好像进行深度内省,质疑本身假定,并通过三想尔后行的自我对话,仔细注视其推理经由的每一步。

举例,在料理经典才略题“猜牌问题”时,QwQ通过梳理对话和推演,像个擅长想考的东说念主相似,并最终得出正确谜底。

现在,QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源,发布短短几小时,引起世界素质者关注体验。

有素质者觉得该模子“是系数莫应许猜度的猖獗的跃进”、“本年开源畛域最要紧的打破”、“让中国在开源大模子和AI推理上占据先机”。

不外通义团队也暗示,天然QwQ展现了庞大的分析才略,但其还是个供扣问的试验型模子,存在不同谈话的混杂使用、偶有不允洽偏见、对专科畛域问题不了解等局限,改日跟着扣问真切模子迭代,这些问题将从容得到料理。