Llama-2首个全方位评测,国内外开源模型大比拼
进入 2023 年 7 月,大语言模型的发展进入了新阶段,开源成为一个火热的主题。
7 月 6 日,上海人工智能实验室与商汤科技等联合发布了书生?浦语开源体系,不仅开源了书生?浦语的轻量版本(InternLM-7B),还率先开源了从数据、训练到评测的全链条工具体系,并提供完全免费的商用许可;
7 月 14 日,智谱科技开放 ChatGLM2-6B 免费商用;
7 月 19 日,Meta 开源了性能更强的 Llama-2,也提供了更加宽松的商用许可。
面对语言模型的新一波开源浪潮,图灵奖得主 Yann Lecun 在推特上评价:
This is going to change the landscape of the LLM market.
可是,开源模型的表现是否可以当得起业界的热切期待?
我们在拿到 Llama-2 的系列开源模型后,通过 OpenCompass 对它进行了全方位的评测。
Llama-2 有多强
Llama-2 相比 Llama-1 有不少技术层面的改进,从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言,重要的改进有以下几点:
-
模型架构上使用 Group-Query-Attention 来提高模型推理效率,语境长度从 2K 增加一倍到 4K。
-
预训练语料从 1.4T tokens 增加到 2T tokens。
-
在监督微调阶段更加注重数据集质量,使用更少但质量更高的 SFT 数据相比使用百万量级的公开 SFT 数据,效果显著提升。
-
引入了三项安全训练技术 Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。
那么,Llama-2 的整体能力究竟如何呢?
虽然在官方技术报告中已经展示了在 20 个左右数据集上的测试结果,但评价能力维度仍然有限,对比的模型也还不够全面。
这里我们借助开源评测工具 OpenCompass,对 Llama-2 发布的各个模型在 40 多个评测集上进行了全方位的评测,从学科、语言、知识、理解、推理五大维度综合衡量大模型的能力。
结果可以总结为以下的雷达图:
下表列出 Llama、Llama-2、以及 ChatGPT 在几个有代表性评测集上的表现:
相比上代模型全面提升:
从综合能力角度,Llama-2-70B相比于 Llama-1-65B(紫色)更胜一筹,在语言、知识、推理、理解、学科等各个能力维度相比 Llama-1 都有明显提升。比如综合考试集 MMLU 上从 63.71 提升到 69.75,GSM8K 上从 54.51 提升到 63.46。
对话和基座模型基本持平:
经过微调和对齐的模型 Llama-2-70B-Chat相比基座模型 Llama-2-70B(绿色),综合能力基本持平,在语言、推理和理解上相比基座有性能提升,在学科综合能力和知识能力上略有下降。比如翻译评测集 Flores 和代码评测集 HumanEval 上,Chat 模型分别有超过 40% 和 20% 的相对提升,而在 MMLU 和 TrivialQA 上则有大约 10% 的相对降低。
离 ChatGPT 仍有较大差距:
相比 ChatGPT-0613,Llama-2-70B-Chat(黄色)仍需继续追赶,尤其在推理能力、理解能力、和学科综合能力上差距还比较明显。其中数学评测集 MATH 和代码评测集 HumanEval 的差距都超过了一倍。
中文能力短板明显
在 Llama 的训练语料中,中文占比较小,微调阶段也没有针对中文进行调优,所以当前 Llama-2-Chat 在中文问题上仍显不足。
一个典型的表现就是给定中文问题时,模型还是会以英文回答。
为了对 Llama-2 的中英文能力有更深入的理解,我们选取了 OpenCompass 中的中英文数据集进行分别分析。
结果显示:
-
Llama-2 在英语语言能力、知识水平和理解能力上已经较为接近 ChatGPT。
-
Llama-2 在中文能力上全方位逊色于 ChatGPT。这一结果表明,Llama-2 本身作为基座模型直接支持中文应用并不是一个特别优秀的选择。
-
推理能力上,不管中英文,Llama-2 距离 ChatGPT 仍然存在较大差距。由此可见,对于大模型来说,推理能力提升的难度比基础语言能力提升的难度要高得多。
Llama-2 的一大特色是它在训练过程中采用了比较完善的安全对齐方案,在价值对齐和安全性上有较大提升。
但在测试中我们也发现,Llama-2 的安全性和模型能力的平衡没有做得特别好,模型非常谨小慎微,对于很多常见问题都拒绝回复。
国内模型不落下风
近几个月,国内大模型发展迅速,多个企业和科研机构都发布了各自的大模型,其中不乏千亿参数的大模型。
那么国内大模型和 Llama-2 相比,究竟表现如何呢?很多朋友都关心这个问题。
重量级模型的对比
国内机构发布的 70B 或者更高量级的模型普遍尚未开源,很多模型只通过内测 API 提供有限服务,因此我们还很难获得对很多国产模型的全量评测数据。
在 OpenCompass 上,由上海人工智能实验室和商汤科技联合多所高校发布的千亿参数书生?浦语模型已经有了全面的评测结果。
基于这个结果,我们比较了书生?浦语和 ChatGPT 与 Llama-2 的性能:
在重量级模型的对比中,书生?浦语表现优秀,在大部分主流评测集上领先于 Llama-2 以及 ChatGPT。具体而言,在 43 个评测集中,InternLM-104B 在 34 个评测集中超越 ChatGPT,在 41 个评测集上超越 Llama-2-70B。
中文考试大幅领先:
在中文考试评测集 CEval 和高考评测集 GAOKAO-Bench 上,InternLM-104B 都大幅超过 Llama2-70B。
语言能力略有优势:
在中英文的基础语言任务上,包括字词理解,成语习语,翻译等评测集上,InternLM-104B 都有优势,其中中文评测集上差距更大。
阅读理解“书生”名副其实:
在中英文的各类阅读理解评测集上,InternLM-104B 均表现出明显的优势,从文本段中总结和理解关键信息的能力更胜一筹。
推理能力技高一筹:
在常识推理、数学推理、综合推理的各种数据集上,InternLM-104B 都有比较稳定的发挥,相比 Llama2-70B 有一定优势。
知识问答平分秋色:
在 BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion 等知识问答评测集上,两个模型表现相当,可见知识水平没有明显差异。
代码能力互有胜负:
InternLM-104B 和 Llama2-70B 的代码能力不相上下,HumanEval 和 MBPP 两个数据集上互有胜负。
轻量级模型的对比
重量级赛道上你追我赶,在 7B 量级的轻量级赛道上,开源模型的竞争也十分活跃。
在众多国内开源模型之中,百川智能发布的 Baichuan-7B、清华大学和智谱 AI 发布的 ChatGLM2-6B、上海人工智能实验室发布的 InternLM-7B 等优秀模型广受业界关注。
我们把这些国内模型和 Llama-2-7B 进行了全方位评测对比:
下表列出了这几个 7B 量级模型在几个有代表性评测集上的表现:
结果显示:Llama-2 在知识能力上有明显优势。
但在学科、语言、推理和理解能力上,InternLM 和 ChatGLM2 都已经超越了 Llama-2,而且 InternLM 的领先优势十分明显。
免费商用形成星火之势
几个月前 Llama 的开源引爆了社区,让众多开发者和研究者受益匪浅,衍生出整个羊驼家族,但遗憾的是其协议限制商用,将企业拒之门外。
7 月 6 日,世界人工智能大会上,书生浦语开源体系正式发布,开源了 InternLM-7B 并提供免费商用许可。
之后,ChatGLM2-6B 和 Llama2 等开源模型相继推进免费商用,顺应了发展潮流和社区呼声。
相信开源社区的星星之火将对产业形成燎原之势,进一步降低大模型落地应用的门槛。
* 本文系量子位获授权刊载,观点仅为作者所有。
—完—
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
责任编辑:文辉
最新阅读
-
“深交所·创享荟”打造资本市场服务国企改革新典范
9月27日,深交所举办第九期“创享荟”国企专业化整合专场活动。“创享荟”是深交所着力打造的具有深市特色的市场服务品牌,目前已围绕热点主题举办了多期专场活动,影响力和吸引力不断增强。 深交所相关负...
-
微软在GitHub上线开发工具包,助力开发者使用Rust语言编写Wind
,微软Azure首席技术官MarkRussinovich日前在X平台发文,公开微软最近宣布“扩大采用Rust语言的成果”,微软同时还在GitHub中发布了一系列开发工具包,让开发者可以使用Rust语言...
-
擦亮“金融为民”底色光大银行多维发力谱写“人民金融”新篇章
像这样面向听障人士的手语服务模式,光大银行已持续运行了四年。四年来,光大银行通过收集听障客群金融业务需求及沟通痛点,让金融服务更贴近听障人士的日常生活。而这,只是光大银行践行“金融为民”初心,努力提供...
-
云南信托联合多家金融机构进乡村开展金融知识普及教育
近日,为帮助广大农村群众进一步提升金融素养及金融风险防范意识,助力打造诚信、健康、安全、和谐的金融环境,在云南省农村信用社联合社、昆明市农村信用社联合社及昆明市西山区农村信用合作联社的共同协调组织下,...
-
“领头羊”计划走进广州番禺,超59家企业具备上市潜力
南方财经全媒体记者翁榕涛实习生曾日丽广州报道 9月26日下午,广州企业上市“领头羊”行动计划“番禺行动”启动仪式在番禺节能科技园交流中心举行。 据南方财经全媒体记者了解,今年7月以来,广州市地方金...
-
算力牛股中际旭创股价“反攻”800G能否助三季度业绩惯性增长?
21世纪经济报道记者雷晨实习生原婷婷北京报道 近期受国内外AI利好消息驱动,二级市场上,中际旭创股价重新抬头,9月26日、9月27日连续上涨。截至9月27日收盘,公司股价报收于114.07元/股,收...
-
索尼申请外置小型触摸屏专利,可“架在”PS5手柄上远程游玩游戏
,据外媒gamerant报道,索尼近日注册了一项新专利,从文件内容上来看,这项专利主要显示,外加可以使用一个“触摸屏”连接DualSense手柄,来游玩PS5游戏。 图源索尼 索尼于此前正式公布了...
-
14幅图看懂债市潮起潮落
超越城乡居民储蓄存款规模和A股总市值,拥有百万亿以上体量的债券。如同资产配置中的“米面粮油”,在投资中无处不在。相较于股票,您可能是更加委婉地参与其中,大部分人是通过银行理财、债券基金、保险、资管计划...
-
国庆黄金周运输今日启动,长三角铁路预计发送超250万人次
国庆黄金周运输启动。 9月27日,澎湃新闻记者从中国铁路上海局集团有限公司获悉,今天是铁路国庆黄金周运输首日,长三角铁路预计发送旅客逾250万人次,较2019年同期多发送60余万人次,增幅超三成。 ...
-
阿里拟分拆菜鸟在港上市菜鸟子公司已申请上百项物流专利
9月26日,阿里巴巴港交所公告,拟通过以菜鸟股份于香港联交所主板独立上市的方式分拆菜鸟。拟议分拆完成后,阿里巴巴将继续持有菜鸟50%以上的股份,菜鸟将仍为其子公司。 天眼查App显示,菜鸟网络科技有...