开源大模型新SOTA,支持免费商用,比LLaMA65B小但更强,基于1万
号称“史上最强的开源大语言模型”出现了。
它叫 Falcon,参数 400 亿,在 1 万亿高质量 token 上进行了训练。
最终性能超越 650 亿的 LLaMA,以及 MPT、Redpajama 等现有所有开源模型。
一举登顶 HuggingFace OpenLLM 全球榜单:
除了以上成绩,Falcon 还可以只用到 GPT-3 75% 的训练预算,性能就显著超越 GPT-3,且推理阶段的计算也只需 GPT-3 的 1/5。
据悉,这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所 。
有意思的是,作为一个开源模型,TII 在 Falcon 上推出了一个相当特别的授权许可证要求:
可以商业使用,但如果用它产生的收益超过了 100 万美元,就要被收取 10% 的授权费。
一时之间,争议满满。
史上最强开源 LLM
据介绍,Falcon 属于自回归解码器模型。
它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。
——Falcon 宣称它“特别注重数据质量”,从公网上抓取内容构建好 Falcon 的初始预训练数据集后,再使用 CommonCrawl 转储,进行大量过滤并消除重复数据,最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。
为了扩大 Falcon 的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。
除了数据把关,作者还对 Falcon 的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。
据悉,Falcon 一共耗费两个月,在 AWS 的 384 个 GPU 上训练而成。
最终,Falcon 一共包含 4 个版本:
-
Falcon-40B:在 1 万亿 token 上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。
-
Falcon-40B-Instruct:在 Baize 上进行了微调,使用 FlashAttention 和多查询对推理架构进行了优化,是一个即用型聊天模型。
-
Falcon-7B:参数 70 亿,在 1.5 万亿 token 上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。
-
Falcon-RW-7B:参数 70 亿,在 3500 亿 token 上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。
Falcon 作为开源模型,已公开源代码和模型权重,可供研究和商业使用。
这对业界来说是一个好消息,毕竟像 Meta 的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。
但 Falcon 还是引起了争议。
这主要是因为它那“超过 100 万美元的任何商业应用都要收 10% 的授权费”的许可证要求。
据悉,该许可证部分基于 Apache License 2.0 协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。
有不少网友认为,既然 Falcon 宣称开源,还要收费,就违背了 Apache License Version 2.0 的宗旨,不属于真正的开源。
并有人称这是一种“有损 Apache 软件基金会来之不易的名誉”的做法。
有网友已经跑到 TII 的官方账号下“讨要说法”:
你自己能解释一下这是如何符合“开源”的定义吗?
目前,官方并没有回复。
你认为这种做法究竟算不算开源呢?
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
责任编辑:醉言
最新阅读
-
“深交所·创享荟”打造资本市场服务国企改革新典范
9月27日,深交所举办第九期“创享荟”国企专业化整合专场活动。“创享荟”是深交所着力打造的具有深市特色的市场服务品牌,目前已围绕热点主题举办了多期专场活动,影响力和吸引力不断增强。 深交所相关负...
-
微软在GitHub上线开发工具包,助力开发者使用Rust语言编写Wind
,微软Azure首席技术官MarkRussinovich日前在X平台发文,公开微软最近宣布“扩大采用Rust语言的成果”,微软同时还在GitHub中发布了一系列开发工具包,让开发者可以使用Rust语言...
-
擦亮“金融为民”底色光大银行多维发力谱写“人民金融”新篇章
像这样面向听障人士的手语服务模式,光大银行已持续运行了四年。四年来,光大银行通过收集听障客群金融业务需求及沟通痛点,让金融服务更贴近听障人士的日常生活。而这,只是光大银行践行“金融为民”初心,努力提供...
-
云南信托联合多家金融机构进乡村开展金融知识普及教育
近日,为帮助广大农村群众进一步提升金融素养及金融风险防范意识,助力打造诚信、健康、安全、和谐的金融环境,在云南省农村信用社联合社、昆明市农村信用社联合社及昆明市西山区农村信用合作联社的共同协调组织下,...
-
“领头羊”计划走进广州番禺,超59家企业具备上市潜力
南方财经全媒体记者翁榕涛实习生曾日丽广州报道 9月26日下午,广州企业上市“领头羊”行动计划“番禺行动”启动仪式在番禺节能科技园交流中心举行。 据南方财经全媒体记者了解,今年7月以来,广州市地方金...
-
算力牛股中际旭创股价“反攻”800G能否助三季度业绩惯性增长?
21世纪经济报道记者雷晨实习生原婷婷北京报道 近期受国内外AI利好消息驱动,二级市场上,中际旭创股价重新抬头,9月26日、9月27日连续上涨。截至9月27日收盘,公司股价报收于114.07元/股,收...
-
索尼申请外置小型触摸屏专利,可“架在”PS5手柄上远程游玩游戏
,据外媒gamerant报道,索尼近日注册了一项新专利,从文件内容上来看,这项专利主要显示,外加可以使用一个“触摸屏”连接DualSense手柄,来游玩PS5游戏。 图源索尼 索尼于此前正式公布了...
-
14幅图看懂债市潮起潮落
超越城乡居民储蓄存款规模和A股总市值,拥有百万亿以上体量的债券。如同资产配置中的“米面粮油”,在投资中无处不在。相较于股票,您可能是更加委婉地参与其中,大部分人是通过银行理财、债券基金、保险、资管计划...
-
国庆黄金周运输今日启动,长三角铁路预计发送超250万人次
国庆黄金周运输启动。 9月27日,澎湃新闻记者从中国铁路上海局集团有限公司获悉,今天是铁路国庆黄金周运输首日,长三角铁路预计发送旅客逾250万人次,较2019年同期多发送60余万人次,增幅超三成。 ...
-
阿里拟分拆菜鸟在港上市菜鸟子公司已申请上百项物流专利
9月26日,阿里巴巴港交所公告,拟通过以菜鸟股份于香港联交所主板独立上市的方式分拆菜鸟。拟议分拆完成后,阿里巴巴将继续持有菜鸟50%以上的股份,菜鸟将仍为其子公司。 天眼查App显示,菜鸟网络科技有...