商汤大模型多个评测表现超ChatGPT-北极收藏网

商汤大模型多个评测表现超ChatGPT

日期：2023-06-23 08:26:25 来源：文汇报

(资料图)

本报讯（记者沈湫莎）商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等），以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中，“商量2.0”综合得分为68.6，超ChatGPT（67.3分），仅落后于GPT-4（86.4分）位居第二；在AGIEval测评中，“商量2.0”得分49.9分，超ChatGPT（42.9分），仅次于GPT-4的56.4分。在C-Eval测评中，“商量2.0”得分66.1分，在参评的18个大模型中，仅次于GPT-4（68.7分）。4月，商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前，“商量”已在众多行业和场景中落地应用，已有近千家企业客户通过申请，应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中，“商量2.0”持续迭代和提升，并实现知识的实时更新。

（原标题：商汤大模型“商量”多个评测表现超ChatGPT）

标签：

上一篇：俄称打击外国武器仓库乌称打击俄军目标|焦点日报

下一篇：最后一页

商汤大模型多个评测表现超ChatGPT

热门推荐

猜你喜欢

市场

“中国历代绘画大系”先秦汉唐、宋、元画特展在杭举行

人民财评：推陈出新，夜经济扮靓春节假期

如何全面提高幼儿园保教质量？教育部详解

冬奥播报丨自由式滑雪女子坡面障碍技巧赛谷爱凌摘银

数字金融强助力高效便捷办“政”事——交通银行支持广东省数字政务再升级

百科

商汤大模型多个评测表现超ChatGPT

热门推荐

猜你喜欢

市场

“中国历代绘画大系”先秦汉唐、宋、元画特展在杭举行

人民财评：推陈出新，夜经济扮靓春节假期

如何全面提高幼儿园保教质量？教育部详解

冬奥播报丨自由式滑雪女子坡面障碍技巧赛 谷爱凌摘银

数字金融强助力 高效便捷办“政”事——交通银行支持广东省数字政务再升级

百科

冬奥播报丨自由式滑雪女子坡面障碍技巧赛谷爱凌摘银

数字金融强助力高效便捷办“政”事——交通银行支持广东省数字政务再升级