您现在的位置: 首页 科学论坛 > > 正文
新华网:《国内LLM产品测试报告》发布 百度文心一言多维度整体领先
发布时间:2023-07-07 16:01:48 来源:C114 通信网

人工智能技术不断迭代引发新一轮科技革命和产业变革,进一步提升人们对经济社会更加美好的体验。当前,全球信息科技巨头纷纷入局,智能化应用走向了以大语言模型(简称:LLM即Large Language Model,大语言模型)为代表的大模型时代。

为反映当前LLM发展最新情况特点,了解LLM产品应用情况。近日,新华网与国内权威科研机构联合推出《国内LLM产品测试报告》。选取文心一言、GPT-3.5、讯飞星火和ChatGLM等四个LLM产品(各测试模型基本情况如下图),从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对LLM进行多维度能力测试和分析。为便于评估和展示,将六类测试分数分别转换为百分制。


【资料图】

表1选用LLM列表

报告显示,以文心一言为代表的国产大模型在内容安全、阅读理解、常识问答,数学运算等方面的表现普遍较好,能准确回应测试问题。尤其在内容安全和数学运算方面,国产大模型的优势相对更加明显。国产大模型中,文心一言在内容安全方面普遍能给出积极准确的正面回应;在常识问答,阅读理解、主观题目和数学运算等方面表现均较为出色,具备更丰富的常识知识和更强大的逻辑运算能力。

图为多维度测试结果

具体来看,在内容安全方面,文心一言获得了115分,在本次测试中领跑,对于内容安全问题的敏感度也最高。而GPT-3.5和开源模型ChatGLM由于没有做相关严格约束,可能回答出一些存在政治或者文化偏见的内容。此外,所有的LLM均对涉黄类问题很敏感,都未在相关回答上诱导。

在常识问答方面,文心一言获得了88分,GPT-3.5和讯飞星火均得到60分左右,ChatGLM仅获得33分的成绩。整体来说,大多数国内LLM均具备基本的文化、历史、地理和生活常识知识,能准确回答绝大多数常识问题。而对于一些相对冷门的常识问题,除文心一言外其他模型都给出了不同的错误答案。

在数学运算方面,文心一言获得93分、讯飞星火和GPT-3.5分别获得75、68分,而ChatGLM仅仅获得11分。当题目涉及一些基础直接的数学运算,所有的大模型基本都能算对,这说明当前的大模型都能理解基本的计算规则。但是随着题目变得复杂,只有文心一言和讯飞星火能正确回答该问题。说明包括文心一言和讯飞星火在内的国产大模型在数学逻辑能力方面会优于其他模型。另外,文心一言在解题目时会采用直接的算数解法,而讯飞星火等模型会采用解方程操作,说明文心一言具有一定的逆向逻辑思维能力,解题方式更加简洁直接。

在阅读理解方面,文心一言得到95分、GPT-3.5得到67分, 讯飞星火和ChatGLM分别获得57分和33分。虽然大模型的部分输出结果不能完全对应正确答案,但大都角度正确且言之有理,说明现有LLM在中文长文本阅读理解方面均具备较高水平。

在主观题方面,各个模型的性能表现相差不多。其中,GPT-3.5取得了最好的结果,文心一言次之。具体而言,从流畅度方面来看, GPT-3.5的输出文本最为流畅,不存在语言重复或者表述不清晰的现象。而文心一言存在少数表述重复的情况。从规范性角度来看,所有的模型均具备较为标准的回答格式,如包括解释、分析、总结等基本步骤。这主要是因为大模型的数据输入都具备固定数据模板,导致模型记住了这些特定模式。从理解力来看,GPT-3.5对主观题的理解最为准确,极少出现文不对题的情况,文心一言次之。文心一言在回答该类组织创意问题时,更加倾向于表述活动的组织细节,比如介绍时间、地点、流程、活动预算等信息。从事实性和全面性角度来看,均是GPT-3.5表现最好,说明了其蕴含的语义知识相对更加丰富。但在测评中国的一些风俗习惯或者传统文化相关的知识时,它的性能逊色于国产语言模型。

此外,在所有被测LLM产品,目前仅文心一言可公开使用由文生图的多模态功能,但目前对一些易混淆的成语理解还有所欠缺。

LLM已经成为人工智能技术应用场景发展的新阶段。随着人工智能技术的不断演进,必将引发一场经济社会应用的人工替代化新思考。一方面,LLM的应用场景将进一步多元化。随着技术的演进,LLM将不再局限于文本、音频和视觉等基本形态,还将具备嗅觉、触觉、味觉、情感等多重信息感知和认知能力,以数字化形式传输并指导人工智能进行内容创作。另一方面,大模型重新定义了人机交互,催生AI原生应用,服务千行百业。大模型会深度融合到实体经济当中去,助力中国数字经济开创新一代人工智能发展阶段。

未来LLM竞争关键是算法是否更为接近和超越人类的思维方式。目前LLM在逻辑推理的计算能力,灵活能力以及快速自学习能力决定领先的优势。在逻辑推理中更能理解人类情感和接近超越人类思维方式,使得模型更加智能,也是很多头部LLM厂商的共同研发升级的追求。

标签:

新华网:《国内LLM产品测试报告》发布 百度文心一言多维度整体领先

新华网:《国内LLM产品测试报告》发布百度文心一言多维度整体领先,人工

阿里云通义大模型新成员——通义万相正式上线

【阿里云通义大模型新成员——通义万相正式上线】《科创板日报》7日讯

深圳机场:今年已恢复7条洲际直飞客运航线

据深圳机场发布,“深圳=布鲁塞尔”“深圳=莫斯科”两条欧洲航线正式复

在阿那亚,我们参与了一次关于内容创作者的自救讨论

“32度、夏夜、微风、乐队、海浪……”在20周岁的这一年,腾讯新闻将各

宋茜周渝民新剧传承非遗,檀健次周依然新剧聚焦古代外交职场

记者师文静近日多部新剧开机。电视剧《另一种蓝》官宣开机,宋茜周渝民

论文剽窃,多久都翻不了篇

标题、框架、摘要,甚至连致谢都跟原作一模一样。近日,江西农业大学20

立陶宛为何频繁挑战大国?曾是波罗的海帝国,祖上阔过不甘心啊

立陶宛位置立陶宛、拉脱维亚和爱沙尼亚是位于波罗的海东岸的三个小国,

男子收取高价代购火车票被拘留10天

中新网天津7月7日电(周亚强)记者7日从北京铁路公安局天津公安处获悉,

金融服务提质 企业发展加速

人民日报记者屈信明中小微企业融资难,一个主要原因是银行获取企业真实

跳绳能使流产吗?

跳绳可以说是一项全身性的运动,它可以帮助练习者提高体能、增强耐力,

擦亮“工”字品牌 打造精神家园

工人日报客户端记者刘旭通讯员陈爱武4月的“两个最美”选树活动、5月的

老年题材也能成年轻人爆款

老年题材也能成年轻人爆款(主题)北京日报记者袁云儿正在热映的电影《

恶魔王子的公主 恶魔王子的女仆

1、你直接从百度上查查,应该能查到,别的小说也是,还有介绍一本特棒的小

李玉刚终于舍得让妻子亮相(李玉刚妻子卓娅照片)

1、额。2、他应该还没结婚吧、、、、、、。本文到此分享完毕,希望对大

高考改变命运吗?什么决定未来的收入?

今年高考各档录取分数线和孩子们的成绩都出来了,家长孩子也完成了填志

中通快递:7月6日以1619.76万美元回购65.12万股公司股份

7月7日电,中通快递港交所公告,公司于7月6日以1619 76万美元回购65 12

2023年7月7日金川镍出厂价下调

金川集团于2023年7月7日电解镍(大板)出厂价报175500元 吨,较前一交易

海报丨“十二个不得”!湖南出招整治“文山会海”

近日,湖南省制定出台《湖南省深化整治“文山会海”等形式主义、官僚主

男子被“洗脑”急坏家人 民警苦苦劝阻挽损失

7月6日9时许,南通公安崇川分局狼山派出所接到季女士的报警求助,称其

上海新阳:7月6日融券卖出2.67万股,融资融券余额6.95亿元

7月6日,上海新阳(300236)融资买入1002 69万元,融资偿还1143 97万元

白沙镇安装视频监控884个 持续推进“平安江津·雪亮乡村”建设

为深化平安建设,完善立体化社会治安防控体系,白沙镇在政府主导、综治

恩施州入选湖北优化营商环境先行区改革事项清单及创建点名单

2023年湖北优化营商环境先行区改革事项清单及创建点名单发布恩施州93项

洗碗机入华30年,为何没像洗衣机一样普及?

2015年,中国洗碗机市场开始爆发,这一年也被称为洗碗机元年(也有说法

华媒控股:7月6日获融资买入901.20万元,占当日流入资金比例18.83%

同花顺数据中心显示,华媒控股7月6日获融资买入901 20万元,占当日买入

“固收+”基金全面“回血” 部分公募趁机加大布局

“固收+”基金全面“回血”部分公募趁机加大布局与2022年相比,2023年

吴金贵确认申花核心将伤愈回归 长三角德比再迎利好

锚定建军一百年奋斗目标 努力开创战区建设和备战打仗工作新局面

小暑遇高温 宁波全域发布高温橙色预警

背户车是什么意思能买吗(背户车是什么意思)

跑步后红疹警惕荨麻疹

江苏省调研组到苏州开展既有建筑暨自建房安全专项整治工作调研督导

视频丨避暑、歇脚、免费饮品!松山湖景区这一城市服务驿站启用

快讯2023-07-07 02:18:56

湖北实现充电桩乡镇全覆盖!

LoveLive!系列之历史上的今天——7月7日

新华保险东营中支武晓晓:经营服务客户 创广饶大地品牌

今年起,国家原子能机构将启动二期项目

东兴市2023养老金调整方案何时出炉?今年企业退休养老金如何计算的?

券商观点|金属行业2023半年度展望:关注周期性、成长性及对冲性的配置价值

森新材:凯伊诺减持公司51.03万股,与一致行动人合计持股比例从96.03%变更为95%

湖南超级稻百亩攻关示范片刷新高产纪录

你的公积金账户多了一笔钱,快来“爱山东”查询

破发股华康医疗创新低 正拟发可转债2022上市超募5亿

厦门职工医保交多少年才能享受终身?|全球微头条

探索建立住房养老金制度,资金从哪来?增加居住成本吗?|热讯

10个高尔夫球场球洞被水泥封堵!原来是西班牙气候活动人士干的……

东莞中考成绩什么时间公布2023

天天观点:对于具体的房屋是否可以申请强制执行

通讯:非洲大陆最西端的白衣天使和友好使者——记中国援塞内加尔医疗队-每日讯息

中国新能源商用车为啥能站上世界舞台,看了央视这期节目终于明白了

世界今日报丨军信股份:7月5日融资买入185.28万元,融资融券余额6066.8万元

华领医药-B涨超7% 五个交易日大涨27% 公司多格列艾汀商业化进程顺利

涉案5000余万元!莱阳破获假冒注册名酒商标案!捣毁两处制假窝点…… 前沿资讯

第七届全国残疾人职业技能大赛落幕 天津代表团创历届最好成绩 全球看热讯

亿鑫团队“老吾老,以及人之老” 2023公益行(重庆站)暨捐赠仪式圆满成功 百事通

2023武汉市东西湖区妇幼保健院入园体检项目及收费标准-当前资讯

雄奇瑰丽坎布拉|当前热门

公安交管部门深入开展打击整治“飙车炸街”专项行动_热点

业内人士:当前CTA策略产品业绩已处于底部区域

安娜苏摇滚甜心_安娜苏摇滚甜心 天天最新

环球资讯:上峰水泥(000672):7月5日北向资金减持16.82万股

世界观焦点:LoveLive!企划2023年7月预告&6月充电感谢名单

世界播报:柴油发电机价格表(诺基亚6120c价格)

中国315防伪码查询中心官网(苹果防伪码官网怎么查)

欠债不还钱如何解决 如果欠债不还怎么办

《全球教育监测报告》中文版和《联合国2030年可持续发展议程教育目标中国进展报告》发布会暨教育高质量发展国际研讨会在京举办

【世界报资讯】飞行执照和驾照_飞行大师执照在哪学

【原神同人】请你小心点,安柏小姐!(空×安柏,照料篇2)_世界报资讯

胃药有哪些名字(胃药有哪些)_环球时快讯

世界热消息:冯熙初简历_冯熙

新湖南专访|和汉服爷爷聊聊“送花”那些事儿

【环球时快讯】全国各地最低工资表来了!这些地区月最低工资≥2000元

天风宏观宋雪涛:疫后复苏进入第三阶段? 全球动态

全球今热点:56岁温碧霞时隔22年再扮“妲己” 美艳依旧不减当年

百润股份:预计上半年净利4.2亿元-4.53亿元,同比增长90%-105%

x 广告
x 广告

Copyright ©  2015-2022 热讯自然网版权所有  备案号:豫ICP备20005723号-6   联系邮箱:29 59 11 57 8@qq.com