Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

近3000道题,商汤大模型拿了金牌

[复制链接]

29万

主题

0

回帖

89万

积分

超级版主

Rank: 8Rank: 8

积分
899170
发表于 2025-3-5 21:03:00 | 显示全部楼层 |阅读模式
模型表现好,金牌少不了。

刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》:

商汤日日新?商量大模型(SenseChat5.5)凭借出色的能力表现,总得分位列国内大模型第一梯队,获得金牌。

本次SuperCLUE10月报告覆盖23个国内模型,聚焦语言大模型的通用能力评估,分为三大维度:除了考察“文科”、“理科”基础能力外,还有考察模型更高阶能力的“Hard”附加任务,总共2900+道题:

【理科任务】分为计算、逻辑推理、代码、工具使用测评集;

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;

【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。

商汤商量SenseChat5.5在多项评测任务中均位列第一梯队,文科中语言理解、安全等维度表现突出,也是理科中逻辑推理、代码学科的“尖子生”。

值得注意的是,在【Hard】的两项任务――精准指令遵循和高阶推理中,商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型,体现了模型优秀的复杂推理智能。

未来,商汤将继续坚持基础大模型的持续研发与投入,不断提升真正高阶推理及“慢思考”能力。

  
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|足球新闻网

GMT+8, 2025-3-17 14:52 , Processed in 0.669660 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表