日期:2023-06-23 08:26:25 来源:文汇报
(资料图)
本报讯 (记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等),以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中,“商量2.0”综合得分为68.6,超ChatGPT(67.3分),仅落后于GPT-4(86.4分)位居第二;在AGIEval测评中,“商量2.0”得分49.9分,超ChatGPT(42.9分),仅次于GPT-4的56.4分。在C-Eval测评中,“商量2.0”得分66.1分,在参评的18个大模型中,仅次于GPT-4(68.7分)。4月,商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前,“商量”已在众多行业和场景中落地应用,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中,“商量2.0”持续迭代和提升,并实现知识的实时更新。
(原标题:商汤大模型“商量”多个评测表现超ChatGPT)
标签:
下一篇: 最后一页
商汤大模型多个评测表现超ChatGPT
俄称打击外国武器仓库 乌称打击俄军目标|焦点日报
大S再迎烦心事,遭台媒和韩媒双重爆料,提供“药”者是黄姓艺人 天天播资讯
手机怎么贴膜才不会有白边_手机怎么贴膜钢化膜_每日观点
怎么炖鱼最好吃_炖鱼好吃的做法_全球观热点
环球即时:这41趟停运列车将恢复开行 这些列车恢复开行
欧盟在能源危机后增加煤炭产量
通讯:一粒娘惹粽里的文化融合
汉堡中肉饼的做法?
百胜中国(09987)6月21日斥100万美元回购1.73万股
马斯克“约战肉搏”小扎,科学分析谁能赢_全球热文
法院|网络言论勿“出格” 侵害名誉要担责! 全球速看料
新一代中型集装箱船外高桥口岸交付运营 将首航_全球快资讯
针对中国,一场“疯狂骗局”在澳上演
【全球新视野】现场|“寻邑”云中,当代艺术相遇大同古城老街区
针对中国,一场“疯狂骗局”在澳上演|世界简讯
音乐、美食、汉服、啤酒……宜宾多地开启端午小长假“潮玩”模式
新课标小学语文阅读与作文3+1_关于新课标小学语文阅读与作文3+1简介-焦点报道
贵州:关于2023年报考提前批次司法警察院校司法行政警察类专业有关事项的公告
违章处理要带什么证件 交通违章处理要带什么证件
有效微生物(EM)与发酵床养殖动物技术(对于有效微生物(EM)与发酵床养殖动物技术简单介绍) 全球观点
世界微头条丨丹东:党建领航“象”亚运 四色助力向未来
阿玛尼粉底液适合什么年龄段_阿玛尼粉底液适合什么肤质 环球微动态
环球精选!绯红色代表的意思_绯红色跟红色有何区别
新疆肿瘤防治联盟持续推动新疆肿瘤防治水平