看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”
大模型们胡说八道太严重,英伟达看不下去了。
他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。
这个新工具名叫“护栏技术”,相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。
一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。
另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。
现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。
防止大模型胡言乱语的三类“护栏”
根据英伟达介绍,目前 NeMo Guardrails 一共提供三种形式的护栏技术:
话题限定护栏、对话安全护栏(safety guardrails)和攻击防御护栏(security guardrails)。
话题限定护栏,简单来说就是“防止大模型跑题”。
大模型具备更丰富的想象力,相比其他 AI 更容易完成创造性的代码和文字编写工作。
但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。
这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。
对话安全护栏,指避免大模型输出时“胡言乱语”。
胡言乱语包括两方面的情况。
一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;
另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。
攻击防御护栏,即防止 AI 平台受到来自外界的恶意攻击。
这里不仅包括诱导大模型调用外部病毒 App 从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。
所以,这样的护栏要如何打造?
如何打造一个大模型“护栏”?
这里我们先看看一个标准的“护栏”包含哪些要素。
具体来说,一个护栏应当包括三方面的内容,即格式规范、消息(Messages)和交互流(Flows)。
首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。
例如被问到“XX 文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。
然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:
最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:
一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。
具体工作流程如下:首先,将用户输入转换成某种格式规范,据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。
类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。
这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:
目前,英伟达正在将护栏技术整合进他们的 AI 框架 NeMo 中,这是个方便用户创建各种 AI 模型、并在英伟达 GPU 上加速的框架。
对“护栏”技术感兴趣的小伙伴们,可以试一试了~
开源地址:
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
责任编辑:笑笑
最新阅读
-
“深交所·创享荟”打造资本市场服务国企改革新典范
9月27日,深交所举办第九期“创享荟”国企专业化整合专场活动。“创享荟”是深交所着力打造的具有深市特色的市场服务品牌,目前已围绕热点主题举办了多期专场活动,影响力和吸引力不断增强。 深交所相关负...
-
微软在GitHub上线开发工具包,助力开发者使用Rust语言编写Wind
,微软Azure首席技术官MarkRussinovich日前在X平台发文,公开微软最近宣布“扩大采用Rust语言的成果”,微软同时还在GitHub中发布了一系列开发工具包,让开发者可以使用Rust语言...
-
擦亮“金融为民”底色光大银行多维发力谱写“人民金融”新篇章
像这样面向听障人士的手语服务模式,光大银行已持续运行了四年。四年来,光大银行通过收集听障客群金融业务需求及沟通痛点,让金融服务更贴近听障人士的日常生活。而这,只是光大银行践行“金融为民”初心,努力提供...
-
云南信托联合多家金融机构进乡村开展金融知识普及教育
近日,为帮助广大农村群众进一步提升金融素养及金融风险防范意识,助力打造诚信、健康、安全、和谐的金融环境,在云南省农村信用社联合社、昆明市农村信用社联合社及昆明市西山区农村信用合作联社的共同协调组织下,...
-
“领头羊”计划走进广州番禺,超59家企业具备上市潜力
南方财经全媒体记者翁榕涛实习生曾日丽广州报道 9月26日下午,广州企业上市“领头羊”行动计划“番禺行动”启动仪式在番禺节能科技园交流中心举行。 据南方财经全媒体记者了解,今年7月以来,广州市地方金...
-
算力牛股中际旭创股价“反攻”800G能否助三季度业绩惯性增长?
21世纪经济报道记者雷晨实习生原婷婷北京报道 近期受国内外AI利好消息驱动,二级市场上,中际旭创股价重新抬头,9月26日、9月27日连续上涨。截至9月27日收盘,公司股价报收于114.07元/股,收...
-
索尼申请外置小型触摸屏专利,可“架在”PS5手柄上远程游玩游戏
,据外媒gamerant报道,索尼近日注册了一项新专利,从文件内容上来看,这项专利主要显示,外加可以使用一个“触摸屏”连接DualSense手柄,来游玩PS5游戏。 图源索尼 索尼于此前正式公布了...
-
14幅图看懂债市潮起潮落
超越城乡居民储蓄存款规模和A股总市值,拥有百万亿以上体量的债券。如同资产配置中的“米面粮油”,在投资中无处不在。相较于股票,您可能是更加委婉地参与其中,大部分人是通过银行理财、债券基金、保险、资管计划...
-
国庆黄金周运输今日启动,长三角铁路预计发送超250万人次
国庆黄金周运输启动。 9月27日,澎湃新闻记者从中国铁路上海局集团有限公司获悉,今天是铁路国庆黄金周运输首日,长三角铁路预计发送旅客逾250万人次,较2019年同期多发送60余万人次,增幅超三成。 ...
-
阿里拟分拆菜鸟在港上市菜鸟子公司已申请上百项物流专利
9月26日,阿里巴巴港交所公告,拟通过以菜鸟股份于香港联交所主板独立上市的方式分拆菜鸟。拟议分拆完成后,阿里巴巴将继续持有菜鸟50%以上的股份,菜鸟将仍为其子公司。 天眼查App显示,菜鸟网络科技有...