5月14日,美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。活动推出新旗舰模型“GPT-4o”,“o”代表“omni”,意为“全能的”。正如它的名字一样,GPT-4o向世界宣告AI技术已迈入新纪元,给全球的科技公司狠狠上了一课,连OpenAI的领航者山姆·奥特曼也不禁感慨,这如同直接从科幻电影情节走进现实。
首先梳理一下发布会讲了什么内容?
1、新旗舰模型“GPT-4o”
跨文本、视觉和音频的端到端模型
据OpenAI官网介绍,GPT-4o可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出。此前ChatGPT的语音模式要用到三个独立模型组成的管道,一个模型负责将音频转录为文本,第二个模型是 GPT-4,它负责接收文本并输出文本,第三个模型则将该文本转换回音频。而在最新的 GPT-4o 模型中,所有输入和输出,都由同一神经网络处理。
数据来源:公司官网。
更快、更自然、更便宜!遥遥领先其他模型
根据传统基准测试,GPT-4o在文本、推理和编程智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面设立了新的高水平标准。特别是音频,它可以在短至232毫秒的时间内响应用户的语音输入,平均320毫秒的用时已经接近人类在日常对话中的反应时间。
数据来源:公司官网。
GPT-4o将向所有用户免费开放,免费用户在使用达到一定限额后,将自动切换到GPT-3.5版本。定价也比 GPT-4 Turbo 便宜 50%,GPT-4o输入、输出每1M token收费0.005美元、0.015美元,GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元。
数据来源:公司官网。
特别是在视觉和音频理解上,GPT-4o相比市面上的其他大模型,又来了一波遥遥领先。
数据来源:公司官网。
2、基于GPT-4o的最新AI助手
语音功能——人机交互畅通无阻
新发布的GPT-4o模型,可以做到随时开始或打断对话,识别说话人的语气、情绪,根据场景或指令生成多种音调、带有丰富人类情绪特征的音频回复,同时支持超过50种语言的同声传译。
视觉功能——处理图像易如反掌
图像处理层面,在传统意义识图的基础上,GPT-4o可以识别手写体(如解答手写的方程组)、精准分析数据,能够读懂画面中人物的面部表情。
3、基于 GPT-4o 的桌面端App
OpenAI 宣布将推出ChatGPT桌面版应用程序,首先向Plus用户推出macOS版,未来计划推出 Windows版本。通过简单的键盘快捷键(Option + Space),用户可以立即向ChatGPT提问,此外,用户还可以直接在应用程序中截取屏幕截图并进行讨论。
用户还可以直接从计算机与 ChatGPT 进行语音对话,GPT-4o的音频和视频功能将在未来推出,通过点击桌面应用程序右下角的耳机图标来开始语音对话。
OpenAI连放大招,谷歌紧随其后带来了哪些新惊喜?
5月15日,谷歌召开2024年度开发者I/O大会,大会全程两个小时,谷歌CEO共提及“AI”121次。此次开发者大会,谷歌将搜索业务做了最彻底的AI改造,还更新升级了Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。此外,推出自称效果超过Sora的生成视频模型Veo。
科技巨头密集公布AI领域最新进展,哪些行业或再迎催化?
1、跨模态能力不断突破,算力需求将大幅提升
在模型性能方面,GPT-4o在文本、推理、编码等方面实现了与GPT-4Turbo相当的水平,在多语言、音频和视觉功能上实现了新高,低延迟的响应速度也拉高了用户对推理算力的需求。以OpenAI为代表的多模态大模型军备竞赛愈演愈烈,将加快AI应用场景落地,进一步加大算力需求,建议关注AI应用、算力领域。(观点来源:东莞证券)
2、交互方式发生重大变革,端到端加速边缘侧落地
GPT-4o的推出预示着交互方式的变革,实时语音输入与反馈将极大提升用户交互体验。GPT-4o在智能度、延迟性和交互便捷度方面均优于Siri,其端到端设计保证了任务切换的一致性,未来OpenAI将推出更多相关功能,并适配端侧AI。看好GPT-4o代表的多模态交互革命,重点关注未来1年内可能落地的端侧AI的相关机会,持续关注应用在教育、音视频社交媒体等领域的相关落地情况。(观点来源:中信证券)
3、进一步夯实用户基础,为创新性应用培育土壤
ChatGPT拥有全球最广泛的大模型用户基数,每周有超1亿人使用ChatGPT,GPT-4o的文本和图像功能免费推出或将进一步夯实用户基础。未来GPT Store有望推出更多便捷应用,丰富应用商城生态,同时随着GPT在桌面端和移动端的持续渗透,AI助理应用有望更快普及,新型商业模式或将逐步推出。(观点来源:国泰君安)
4、人工智能革命引发鲶鱼效应,将推动产业链发展全面提速
GPT-4o展现出的低成本、低延迟特性将对整个行业产生连锁效应。1)推理端降本有望大幅提振应用端需求。当前GPT-4o已面向付费版用户和企业版用户开放,未来将免费向所有用户开放,验证推理端成本持续下降。AI应用的性价比提升将开辟更多商业化路径,推理成本降低有望带动应用端的飞轮效应。2)AI商业化竞争由模型端扩散至基础设施架构。GPT-4o低延迟背后受到模型性能、基础设施架构、网络延迟、数据处理方式等多种因素的影响。(观点来源:光大证券)
相关产品:
科创100ETF基金(588220)
跟踪科创100指数,指数布局科创板中小市值个股,有望分享中小市值个股成长为细分方向龙头从小到大过程的红利;前三大权重行业分别为医药、电子、新能源,成分股囊括了众多“高精尖”科技企业,尤其是在人工智能、生物科技、新能源、云计算等领域,有望受益于政策持续加码的趋势,科创100ETF基金(588220)配置窗口期或已至。
大数据ETF(159739)
紧密跟踪中证云计算与大数据主题指数,中证云计算与大数据主题指数从沪深市场中选取50只业务涉及提供云计算服务、大数据服务等服务相关硬件设备的上市公司证券作为指数样本,以反映沪深市场云计算与大数据主题上市公司证券的整体表现。
传媒ETF(159805)
跟踪的传媒指数为当前AIGC最受益板块,AIGC赋能影视行业内容全产业链条,加大缩短传媒板块变现周期,叠加影视回暖驱动传媒板块进一步复苏。
基金有风险,投资需谨慎!