OpenAI点燃AI魂,GPT-4o掀起端侧革命
21世纪经济报道记者孔海丽 实习生邓熙涵 北京报道 酷暑到来之前,OpenAI提前引爆了AI之夏。北京时间5月14日凌晨1点,OpenAI举行春季发布会。会上,重点推出新旗舰模型GPT-4o,以及在ChatGPT中免费提供更多功能。GPT-4o在多模态交互领域开始了现象级横扫。
人类津津乐道的智能AI助手,面目逐渐清晰:除了尚未具身,无缝语音对话、精确到细节的视觉信息处理、情绪检测技术及共情能力,几乎都与真人无异。而比人类更强的是,这个AI情绪稳定,天文地理无所不知,解决问题的能力也是一流。
业内因GPT-4o沸腾起来,盛赞一如往常,“大模型从‘呆瓜’变‘真人’,交互能力革新带来的可能是场景、用户数的几何级放大”;“OpenAI将蚕食情感类人工智能助手的市场,向更具情感、个性更强的人工智能迈进”;“要重新理解机器视觉、听觉了”……
不过,喧嚣之下,也有一些客观声音,在审视OpenAI技术层面的进展。GPT-4o的广泛真实体验,能否全部达到视频演示中的极高水准,仍有待验证。
IDC中国研究总监卢言霞告诉21世纪经济报道记者,OpenAI本次发布会的现场演示中,视频采用的还是抽帧处理技术,即Image to text,语音交互还是之前的全双工技术,只是多模态对话的过程更顺畅更自然。但确实进一步提高了类GPT产品的智能化交互能力,弱化了背后的代码,简化了交互的流程。GPT-4o不会砸掉所有语音助手的饭碗,反而是大模型在端侧的落地迎来双赢可能。
科幻电影《Her》中所展现的图景似乎成为可能,人类距离真正的AI Agent还有多远?是否会引发新一轮的AI Agent变革?可以肯定的是,GPT-4o已经揭开AI行业变化与竞争的新篇章。
“AI背后藏了个真人”
GPT-4o的“o”代表“omni”,象征着全能。该模型多模态交互能力突出,能够接受文本、音频和图像的“混搭”输入,快速响应完成推理,生成文本、音频和图像的组合输出。
音频输入层面,GPT-4o击穿了此前Siri等智能语音助手的延迟弊端,取得突破性进展。其响应速度之快,达到了人类级别,至短232毫秒,平均320毫秒。
此外,新模型展现出对人类交流习惯的高度理解力和适应性。GPT-4o能以听起来非常自然的人类声音说话,并且发出多种语气词,表现了此前AI音频所未能达到的张力和可塑性。
它能够接受人类交谈中的打断习惯,及时停顿并给出无缝回复,并且保持对上下文的记忆。这种自然的交互体验,让人几乎感觉不到与机器的界限。
视频输入方面,GPT-4o可以及时响应高管开启摄像头的视频需求指令,实时解决一元方程的数学计算,整个过程同样丝滑迅速。
市面上已有一部分情感型人工智能机器人,比普通人工智能助手更能准确识别人类情绪。然而,上述功能多停留在文本中,GPT-4o的情绪检测功能则扩展至视频领域。
发布会现场,研究人员将手机摄像头对准自己的脸,向GPT-4o发起了颇具挑战性的问题:“我看起来怎么样?”,GPT-4o初次回答将提问者的脸界定为“木质表面”。随后,GPT-4o在引导性提问下修正结果,准确分析出提问者的情绪状态是愉悦的、笑容满面的。
从底层技术分析,GPT-4o的先进之处在于,它革新了传统的多模型串联处理方式,能够通过单一的神经网络统一处理所有的输入和输出,无论是文本、视觉图像还是音频信息,都能得到精准高效的解析和回应。
OpenAI并不是首家运用情感智能技术的公司。Inflection AI发布的Pi已能成熟运用大语言模型的对话共情回复技术,实现人类“嘴替”的效果,提供沉浸式的虚拟情感陪伴。
英伟达高级研究科学家兼人工智能代理负责人Jim Fan发文称赞GPT-4o的情感能力,令人联想到 2013 年的科幻电影《Her》。这部电影讲述了人机亲密关系——遭遇离婚风波的男主角西奥多与人工智能系统萨曼莎成为灵魂伴侣。
Jim Fan认为,OpenAI将蚕食Character.AI等情感类人工智能助手的市场,向更具情感、个性更强的人工智能迈进。
继发布文生视频大模型Sora后,GPT-4o有望成为迈向多模态智能体的又一座里程碑。
巨头焦虑与端侧革命
OpenAI的大模型库再添GPT-4o一员猛将,预示着AI Agent已至新赛点,再次拨快了人类循序渐进迈向GAI的时针。
从技术定义来看,AI Agent是通用人工智能的终极目标,以大语言模型为大脑驱动,不需要人类的指挥,具有自主性,能独立思考并运行相应程序。
市场嗅到了技术带来的机会风口,AI Agent成为科技巨头竞相追逐的前沿方向。目前,已经出现不少泛化的Agent概念产品,微软的Copilot,谷歌的Gemini都是这一队列中曾被寄予厚望的数字助手。
如今,GPT-4o的加速推出革新了智能交互的表现。前DCCI互联网数据中心创始人胡延平认为,GPT-4o重新定义了机器视觉、听觉和摄像头的交互模式,应用爆发力不可估量。
新技术进展为巨头们的错失恐惧又添一把火。据悉,谷歌计划在2024年I/O开发者大会上推出个性化数字助手“Pixie”,由Gemini驱动,有望整合多模态功能。
微软也在蓄力开拓AI Agent的新场景。为了打造个性化聊天机器人,3月19日,微软已与Inflection AI达成协议,获得其核心技术授权;针对现有最接近AI Agent的Copilot,微软正努力解决如何为生成式AI提供良好提示词,为Copilot for Micorosft 365提供Prompt补全功能。
AI Agent的爆发之年,苹果同样意图升级被诟病“古老过时”的Siri。有知情人士称,苹果或将在iOS 18中引入由ChatGPT 提供支持的聊天机器人。
更自然、更“类人”的GPT-4o掀起的巨大波澜,不仅影响上游厂商,还将波及产业链下游的终端厂商。OpenAI此次发布会呈现的新模型多基于手机端场景,为处于产业爆发前夜的AI手机产业带来新想象。
市面上AI手机等端侧智能体的生态离不开大模型技术底座,智能终端厂家需要重新审视底层大模型能力。
相较于单个AI应用,AI手机的卖点一直是人格化、记忆、感知和管理能力,跨APP交互能力。而具备情绪价值和自然交互能力的GPT-4o走入市场,要么会颠覆一众AI手机,要么会让留下来的AI手机“如虎添翼”。
卢言霞告诉21世纪经济报道记者,“GPT-4o意味着大模型在端侧的落地更进一步。短时间内,肯定是谁的端侧交互能力强,谁就会赢得用户。在中长周期内,后来者也会迎头赶上。应该说,这是端侧与AI助手的双赢,毕竟上游厂商没有精力面向每个场景做优化与工程化,还是需要产业链的协作。”
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
责任编辑:安远
最新阅读
-
“深交所·创享荟”打造资本市场服务国企改革新典范
9月27日,深交所举办第九期“创享荟”国企专业化整合专场活动。“创享荟”是深交所着力打造的具有深市特色的市场服务品牌,目前已围绕热点主题举办了多期专场活动,影响力和吸引力不断增强。 深交所相关负...
-
微软在GitHub上线开发工具包,助力开发者使用Rust语言编写Wind
,微软Azure首席技术官MarkRussinovich日前在X平台发文,公开微软最近宣布“扩大采用Rust语言的成果”,微软同时还在GitHub中发布了一系列开发工具包,让开发者可以使用Rust语言...
-
擦亮“金融为民”底色光大银行多维发力谱写“人民金融”新篇章
像这样面向听障人士的手语服务模式,光大银行已持续运行了四年。四年来,光大银行通过收集听障客群金融业务需求及沟通痛点,让金融服务更贴近听障人士的日常生活。而这,只是光大银行践行“金融为民”初心,努力提供...
-
云南信托联合多家金融机构进乡村开展金融知识普及教育
近日,为帮助广大农村群众进一步提升金融素养及金融风险防范意识,助力打造诚信、健康、安全、和谐的金融环境,在云南省农村信用社联合社、昆明市农村信用社联合社及昆明市西山区农村信用合作联社的共同协调组织下,...
-
“领头羊”计划走进广州番禺,超59家企业具备上市潜力
南方财经全媒体记者翁榕涛实习生曾日丽广州报道 9月26日下午,广州企业上市“领头羊”行动计划“番禺行动”启动仪式在番禺节能科技园交流中心举行。 据南方财经全媒体记者了解,今年7月以来,广州市地方金...
-
算力牛股中际旭创股价“反攻”800G能否助三季度业绩惯性增长?
21世纪经济报道记者雷晨实习生原婷婷北京报道 近期受国内外AI利好消息驱动,二级市场上,中际旭创股价重新抬头,9月26日、9月27日连续上涨。截至9月27日收盘,公司股价报收于114.07元/股,收...
-
索尼申请外置小型触摸屏专利,可“架在”PS5手柄上远程游玩游戏
,据外媒gamerant报道,索尼近日注册了一项新专利,从文件内容上来看,这项专利主要显示,外加可以使用一个“触摸屏”连接DualSense手柄,来游玩PS5游戏。 图源索尼 索尼于此前正式公布了...
-
国庆黄金周运输今日启动,长三角铁路预计发送超250万人次
国庆黄金周运输启动。 9月27日,澎湃新闻记者从中国铁路上海局集团有限公司获悉,今天是铁路国庆黄金周运输首日,长三角铁路预计发送旅客逾250万人次,较2019年同期多发送60余万人次,增幅超三成。 ...
-
阿里拟分拆菜鸟在港上市菜鸟子公司已申请上百项物流专利
9月26日,阿里巴巴港交所公告,拟通过以菜鸟股份于香港联交所主板独立上市的方式分拆菜鸟。拟议分拆完成后,阿里巴巴将继续持有菜鸟50%以上的股份,菜鸟将仍为其子公司。 天眼查App显示,菜鸟网络科技有...
-
分析机构:中国消费者平均需要119%月薪,才可购买苹果iPhone15P
,苹果公司本月发布了iPhone15系列手机,其中iPhone15ProMax国行起售价为9999元人民币,分析机构WorldofStatistics日前分享了相关统计数据,概述了全球各国家地区消费者...