欧博AIGC年度激辩:3轮交互内准确率95%以上才能真正应用

文章正文
发布时间:2024-05-20 19:54

量子位 | 公众号 QbitAI

“ROI是衡量AIGC应用价值的唯一标准。”

“现在AIGC客户的需求有两类,欧博一类是尝鲜,一类是真正在工作流里应用。后者如果类比AI 1.0时代的应用金标准,在AI 2.0时代,应该就是在至少3轮交互内要达到95%以上的准确率。”

“AIGC应用落地的关键,还是要从业务和场景中来,到业务和场景中去,拿结果说话。”

“如果是高质量的、投入真金白银去做的百模大战,那么就是有意义的。”

……

从ChatGPT带动AI产业爆火,再到现在越来越多AIGC应用的出现,AI行业已经从初步探索期,发展到应用落地期。今年也被很多人称为“AIGC的应用元年”。

那么对于所有AIGC玩家来说,都会面临一个现实的问题:怎么将AIGC应用落地,如何赚钱?

围绕这一问题,阿里云通义大模型业务负责人徐栋、轻松集团技术副总裁高玉石和澜码科技创始人兼CEO周健在本次中国AIGC产业峰会的圆桌环节,详细分享了自己的看法。

公司产品类型、模式都不同的三位玩家,对AIGC应用落地的探索都到了什么阶段?

现在的AIGC应用,又有什么价值?

以及最重要的,AIGC应用如何落地、怎么赚钱?

中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。

话题要点

AIGC应用已在不同细分赛道上岗

AIGC产业确实越来越卷,但也越来越成熟

AIGC应用落地变现的方式

AIGC应用的价值

如果是高质量、投入真金白银的百模大战,那么是有必要的

(圆桌环节由量子位主编金磊主持。在不改变原意的基础上,量子位对内容进行了编辑整理。希望能够给你带来更多的启发与思考。)

论坛实录

(话题要点为后添加)

AIGC应用已在不同细分赛道上岗

量子位金磊:感谢各位嘉宾朋友参加这次圆桌,我们这次峰会的主题叫做「你好,新应用」。为此我们邀请到不同产业和领域的落地先锋代表。

从ChatGPT问世到现在一年半的时间里,我们看到生成式AI行业发展有一个非常明显的趋势:从基础层的建设和探索,逐步在向怎么把他们用起来去发展,今年也被很多人认为是AIGC的应用元年。

我们觉得在这个时间节点上有必要坐下来聊一聊与AIGC有关、且非常接地气的话题:「怎么落地,如何赚钱」。

紧扣这次圆桌的话题,我想先问一个开门见山的问题,就像刚才快刀青衣老师说的,不要告诉我大模型有多厉害,要告诉我它们用得怎么样了。

首先想请教一下高总,轻松集团在去年年底的时候对轻松问医Dr.GPT做了全面升级,相应发布了7个创新应用,目前病患和医生对新应用的使用情况是怎么样的?

轻松高玉石:我来介绍一下我们轻松集团的落地情况,算是对应快刀青医老师说的企业落地实践的过程。

我们在去年上半年发布了轻松问医的大模型,是医疗健康领域的大模型。

随着下半年整个应用和场景的拓展,我们在去年年底做了升级。基于轻松问医大模型,还有具体应用场景里面应用模型的结合,我们在医生和患者端确实做了落地的应用,目前看效果还可以。

比如医生端,我们会给医生提供过往积累了很多的病例数据,并且我们做了病例识别AI模型,结合轻松Dr.GPT对于健康医疗数据识别的能力和推理能力,我们向临床研究部分推出临床预分析的数据能力。

做临床研究的这些医生,他临床收集的病例只需要提交上来,很轻松就可以拿到识别结果包括结构化,甚至说他在临床研究过程中收集到各种其他类型的数据,都可以综合做一个预分析。

目前我们看到的情况,在我们平台上采用这种方式去做的,在同等工作上效率相对于传统临床研究能提升2倍,目前整体用的效果还是非常不错的。

同时,我们平台上还有很多医生在做科普。我们能给他们提供一些文字或者视频类科普内容创作过程中的AI辅助工具。

目前看来,这部分医生在我们平台上每个月可以利用这个工具生产或者说创作内容,大概维持在万这个级别的规模。

同时,我们还给医生推出辅助诊疗AI工具。它可以自己跟患者沟通、交流,会预生成出诊断结果的判断,包括给诊疗建议,最终医生会对结果做整体的复核并给出最终结论。

我们跟一家互联网医院做试应用,目前看来这个结果被医生的采纳率能达到86%。一个医生正常问诊的过程之前是10分钟左右,现在只需要1-2分钟,这是我们医生端的。

从患者端来说,因为我们C端用户比较多,所以做了健康顾问。

比如对慢病患者,它会提供用药提醒;对普通用户,特别我们中老年用户比较多,它可以提供饮食、生活的健康建议。

我们目前这个顾问覆盖30多万用户,活跃率可以做到70%多。这在过往很难做到,因为这种方式跟用户沟通需要非常大的人工团队去维护,但现在有了大模型,这个事情可以做得非常轻松了。

包括我们健康商城里在线的智能客服,整体上了大模型之后收缩了70%人工人力成本、人工客服的成本。由于时间关系,还有其他的应用我这里不详细的展开了。

量子位金磊:刚才高总提到病例分析任务,这对于医生来说应该是必须严谨且耗时的工作,有没有数据通过Dr.GPT给医生带来省时的数据呢,节省多少时间?

轻松高玉石:对于一个完整的问诊过程来说,在线问诊比线下问诊时间耗时较长。正常情况下,原本是10分钟左右,现在大概降到1-2分钟。

前面很容易的沟通不需要人工,用机器就能收集上信息,最后医生做出决策之前,可以看到大模型提取完的结果。

如果他想要的信息没有完整提取到,因为这不仅是完整模型而是一套系统,系统自动就会把想问的问题用人工跟患者沟通,整个过程看下来时间节约了很多。因为医生看病大量时间都用在前面的过程,最后出结论时,很多时候很快。

量子位金磊:接下来想问问徐总,咱们通义千问正式开放也有半年多的时间了,现在用户使用的情况是怎么样的?

阿里云徐栋:我跟高总的角度可能会不太一样,因为我们是云厂商,再加上模型服务面向全行业。

坦白说很多客户比较两极分化,一方面认为模型是万能的,另一方面有些用户觉得模型是对原有搜索的增强,可能是这么两个角度。我们把市场去做个分割,AIGC怎么应用的情况可以分两个层面。

第一个,大模型塑造了产业的核心商业模式。比如游戏行业的NPC、社交领域的角色扮演,包括高总讲的范围像是SaaS的场景,它是AIGC内容生产的上游和下游,而且它有自己特定的work flow,这个产业链也是在快速变化。

除此之外可以看到像智能硬件包含的范围很广,包括车机、智能座驾、手机,也能看到手机厂商和PC厂商分别把名字都改了,叫AI Phone或者AI PC。还有像鼠标这种消费电子类的穿戴设备,都有模型上的场景应用。

可以把这一大类通称为大模型对商业模式做的大升级,它们或多或少可以把模型集中进来。

第二大类是企业级市场,未必是对商业模式做了根本性重塑,而是在降本增效场景作用比较突出,比如最典型的客服场景、知识库的问答等等,这些场景在企业内部对提效来说有非常多的帮助。

快刀青衣老师在刚刚讲的时候,说团队规模未必未来会足够大,原因也是这样。因为你会发现很多原有岗位角色都是围绕着具体的业务场景的,这个场景下面很多角色通过AI被提效,因此可以做更好的降本增效模式的改变。

讲到阿里巴巴集团模型内部的模型使用情况,有一个很好的案例,有机会可以听钉钉总裁分享。钉钉是非常好的工具链SaaS企业,他们应用分了三步。

第一步把原有IM的Saas应用AI化。比如闪记、视频会议还有文档,全部接入了像魔法棒这样一个能力,所有内容都跟AI打包了。

第二步推出了钉钉超级助理。因为AI助理、AI Agent这个场景,也就是一个AI助理帮助企业通过IM使用相应的功能,不管调用功能还是做摘要都会变得很方便。

第三个是钉钉走的另外一条更有突破性的路线,它有一个场景叫“炼丹炉”,也就是一个企业可以把能力包括知识库跟钉钉原有场景结合,变成自己所需要的AI助理,或者特定企业的数字员工。我觉得这样场景也是非常有意思的。

今天很多AIGC应用场景在慢慢发展,也在不断地分层,我们自己看到这两个层面客户的需求会不太一样,毫无疑问调用量也正在非常快速的增长,不管在第一个场景还是在第二个场景。

量子位金磊:接下来想请教一下周总,澜码科技是去年2月份成立的,可以说是非常典型的AI 2.0公司,咱们去年年底发布了AI Agent平台AskXBOT,那么咱们这款应用现在目前使用情况是怎么样的?

澜码周健:我们一开始从自动化的视角设计AI Agent,我们关注到企业内部员工,特别是一线员工,处理的很多都是数据、文档、应用、流程,这四个核心要素,我们就围绕这几个打造了核心能力。

去年比较多的能力还是在文档这个维度上面,比如说最简单的政策解答、出题判卷,包括保险产品条款的回答,这样做一系列的应用。今年我们开始有一些所谓的Chart能力或者Work Flow的能力,我们把这些能力组装在一起,就可以做高级一些的增强自动化,专家可以通过知识去赋能基层的业务员工。

这里有一个典型场景,以前保险代理只能通过盲打电话推销新的保险产品,成功率非常低,现在保险代理可以根据体检情况生成的个性化保险产品推荐,去推荐给对应的体检客户,并且推荐的产品也符合他的健康情况,从而可以大大提高销售转化率。

另外一个场景是银行普惠金融,政府现在也希望引导银行资金能够到优质的中小企业那里去,这时候就需要对申请资金的企业撰写尽调报告。

过去一个客户经理要花半天时间写报告,因为要收集各种各样的信息,例如公司章程、营业执照、银行流水、财务报表,大概要花半天。但是通过Agent,10分钟就能生成一份报告,再检查一下,基本上30分钟就能完成一份报告。

我们自己总结下来,一种是日常办公的增强自动化,包括刚才讲的查询文档、差旅预定、会议预定、智能客服等都是降本增效,另外可以做一些创新业务。

过去因为企业内部的专家供给是稀缺资源,专家的时间一天也是24个小时,像刚才讲的保险代理、理财经理,不可能每个理财经理都是专家,一定是初级、中级、高级员工匹配起来,这个时候专家时间的供给是瓶颈。

而今天有了AI Agent或者用上大语言模型之后,智能体能发挥出来专家的能力,这时候专家时间就不再是瓶颈资源了,我们可以做一些新的业务。原来觉得不可能、质量太差或者风险太高的业务,现在就都有可能了。

这个是我们看到很多落地的场景中,企业特别想要去购买的应用。

量子位金磊:好的,从三位嘉宾的分享我们可以看到,AIGC应用已经在不同的细分赛道上很有效地上岗了。

AIGC产业越来越卷,也越来越成熟

量子位金磊:与此同时我们也看到这一年半以来,AIGC的应用越来越多,在功能上也呈现出你追我赶的现象。总而言之,越来越卷。

所以我想先请教一下徐总。咱们通义千问应该算是大厂AIGC应用的代表,是否有感受到同类产品迭代速度过快,感受到了一些压力?

阿里云徐栋:因为通义千问跟别的厂商还有区别,它的开源力度非常大。比如两周前和一个月前,我们分别开源了两次,所以在社区里会得到很多关于效果的反馈。有的时候一个模型刚放出来,第一周都是噪音,一个月之后才会慢慢知道效果怎么样。

坦白说今天如果要卷的话,我们对效果还是比较有信心的,很多客户会给我们一些反馈,觉得效果还可以。

但是我们今天已经开始卷到另外一个维度,我认为是好事情。一个叫做延时,我现在发现有些场景对时间会非常敏感。比如说有些外呼的场景,还有对图片语义理解的场景,用户能接受的时间点一定是在2秒,2秒以上没办法接受。

我们其实跟一个手机厂商合作,是面向视障人士,他们可以通过手机去识别当下环境的物体是什么样子。大家都知道视障人士非常敏感,能感受到100毫秒的辅助声音的理解,但是在今天时间如果要超过3秒或者4秒、5秒,这个场景就不可用。

而且性能、延时、并发,是我们目前觉得是重点要去卷的方向。

另外一个我们发现今天对成本的敏感度也越来越高。因为过去调用量不大,所以大家觉得成本还好,但是今天我们发现在成本方面卷得也是非常厉害的。从效果卷到了性能、延时、成本,这是目前看到比较多的方向。

不过这代表产业越来越成熟了,进入了一些核心的敏感领域,所以才会提这么多需求给我们,这是一方面。

第二方面我们不能只卷语言模型,我们现在在卷多模态的理解、多模态的生成,比如刚才讲到怎么理解图像,怎么理解声音。

前段时间有个客户告诉我,开水的声音和冷水的声音是不一样的。声音代表很多信息、有很多标签,所以我说声音的识别不是把语音转化成文字的模式。

有可能今天所有模型输入的信息可以多元,可以是声音、图片、文本,也可以是视频,输出内容也可能是多元的。如果再加时间轴,有可能变成视频。

所以我觉得多模态应该是今年下半年卷得最厉害的方向,也是因为上半年OpenAI在春节的时候发布了Sora这个模型。

除此之外,我觉得还有一个目前卷的压力比较大的方向,准确地说是插件生态,或者说是工具链。

过去大家都知道工具链的核心讲的是怎么做SFT,后来开始卷RAG。现在我们发现随着Agent成为重要的商业化出口后,就需要越来越多的工具或者API,这些API背后代表是不同能力的插件。

所以今天我们能看到,什么样的模型服务能够提供更丰富的插件服务,可能也是一个非常重要的事情。

所以我觉得分几个层次,我们倒未必觉得今天在效果上会有足够大的压力,当然我们也是在不断对标国际上最先进的模型。

但是我们觉得落地场景上来说,可能会在其他几个方面卷的更厉害,而且这几个方面真正决定了客户能不能用模型取得正收益,这是我们的观察。

量子位金磊:刚才徐总谈到卷的不同方向,但是阿里本身通义大模型就是很卷了。10天前在4月7日的时候,阿里通义千问刚刚开源了千问1.5的34B这个大模型,在今天又开源了一个CodeQwen1.5-7B和Qwen-7B-Chat。

接下来在To B应用当中医疗是非常火热的赛道,其实市场上已经有很多医疗大模型和相关的应用了。高总,您觉得整个医疗的AIGC应用,目前的困境是什么?

轻松高玉石:首先我觉得这可能是目前整个AIGC落地过程中普遍存在的问题,就是怎么找到一个比较合适的场景,能够把它解决实际问题,落得下去。

而不是说现在依然大家看到发布各种各样的内容、造概念、追热点,甚至说我先把大模型搞出来,然后再去找场景。

我的建议还是从业务和场景中来,到业务场景中去,拿结果说话,有没有增效,有没有增收。其实这个说起来很容易,做起来很难。

我们今年1月份的时候做了年终总结,大家看到我们去年AI落地情况,真正应用起来和对业务产生价值,成功率只有30%多一点。等于我做三个尝试,最后只能成一个,这个东西说起来也很容易,做起来其实挺难的。

第二点是医疗的高质量的数据还是比较少的,而且数据也比较分散,是先天的一些因素造成的比较分散,而且这个行业里面还有部分数据的封闭性比较强。怎么把数据有效利用起来,能够给模型强化出来更好的能力,从目前看来可能更好的方式还是通过国家,在数据要素这一系列建设上和规划上怎么缓解这个问题。

第三点是医疗这个场景是一个很严肃的场景,对于容错率要求是非常高的。

包括刚才徐总也讲,我们会有一些SFT,包括一些微调,还有检索增强的方法,能把这些提升和强化。以现在实际情况看,我个人建议还是以辅助的方式为主,比如说无人化和自动化的方式,我建议不宜过早和乐观地做这件事情,这是我个人的观点。

量子位金磊:那在成本上呢,很多客户肯定都是会希望能拿到一个又快又好又省钱的解决方案和产品。咱们的产品在上岗医院的时候,在成本上是怎么做到降本增效?

轻松高玉石:这个核心点在于算账,用的过程中一定要算账。

大家都讲ROI,有些场景里面,你能获得的收益其实是很高的,就可以用到更好的或者说可以付出更大的成本,但有些成本其实很低的,所以说这个过程中就需要去平衡。我们那2/3失败的项目,里面有一部分项目是用起来确实不错,但最后确实成本扛不住。

量子位金磊:好的,刚才提到成本,咱们AI Agent属于AIGC技术里面非常潮流的一个,虽然这种方法在交互的场景中效果比较好,但是它的成本应该算是一个硬伤。

所以想请教一下周总,咱们在这个方面是怎么解决的?

澜码周健:在我们实际实现过程中,基本上还只是先拿最好的模型去验证这个场景的可实现性。

如果现在在GPT-4上面,通过提示词也没有办法做到的话,基本上我们会拒绝这个项目。如果能做的话,我们的客群里面很多是要私有化部署,因此还是想要通过拆解去解决。一方面通过辅助专家知识,这样的话就把大模型的能力局限在很多语言理解上,只是去处理、总结或者说去做自然语言,还有的是实体识别、或者意图识别、意图分类等这样一些事情。

这时候对底下模型的推理能力的要求就会大大降低。所以这样的话,对于整个端到端解决方案,就会比用最贵的模型要好很多。

量子位金磊:那么除了在产品应用越来越卷之外,放眼整个宏观的AIGC市场,必然也产生了一定的变化。还是想先请教一下周总,您觉得市场对于AIGC应用的产品是不是越来越严格了?

澜码周健:您是说客户吗?

量子位金磊:对。

澜码周健:客户的需求其实是两类,一类只是尝鲜,这时候是不会真的用起来的。第二类是真的要在实际生产工作流里面被用起来,在AI 1.0时代都有明确的可以被用起来的指标,当然今天稍微有一些不同。

以前在人脸识别的应用场景,准确率95%就是金标准,如果准确率达不到95%,肯定没有办法上线。现在可能可以放宽到在交互三轮以内一定要达到95%的准确率,这个还是必须的。

量子位金磊:咱们高总这边呢?有这个感觉吗?

轻松高玉石:在这个过程中,我觉得用户对于我们容忍度是比较高的。

包括用户也好,包括内部使用一些供给也好,因为是新事物,所以本身先天有一定的兴趣。在这个过程中,他是接受的。但是可能在这个过程中需要适当地控制好预期。如果给出的收入预期以及实际情况的预期过高,之后带来的结果可能会走向另一个极端。

至于另一个点,目前整个市场上对于AIGC有点跟过往的情况不一样。过往说有一个比较好的增长就行了,现在可能收入和利润是同等重要的。如果从资本的层面看,其实对AIGC产品的要求比以前要高很多。

量子位金磊:现在我想问一问徐总,这一年半来,咱们有没有对AIGC市场有一个新的感受?

阿里云徐栋:我个人感觉越来越乐观了。

因为大家过去卷的都是在卡层面,前段时间红杉在美国有一个报告,去年花了500亿美元买卡,真正的AIGC产值就30亿美金,大概是这么一个结构。今天来看,刚才周总、高总讲了一个观点我特别认同,就是客户的预期变了。原来是认为你一上来就是一个pilot,不是copilot。

所以有些用户对准确率不是那么敏感了,他觉得够用就可以,甚至有些客户因为成本和性能,主动选择从千亿参数模型改变到了14B甚至7B的模型,因为他知道自己要什么了,这是非常大的转变。

很多客户今天跟我们聊的时候,好像不需要这么大的模型了,因为这个量太大了。而且我觉得是一个copilot,我不需要把它直接变成最终的生产的结论,所以我觉得这是一个非常大的变化。

第二个我自己觉得市场为什么越来越好了,因为原来一开始都是像在生产力的办公工具,或者说像Office 360这个方向转。现在看到越来越多不一样的场景,特别是To C的场景。原来是To B多,因为过去To B的融资比较容易,而现在看到To C的AIGC融资慢慢起来了。这和基础模型能力的提升,以及性价比越来越高是有关系的。

另外还看到了一个快速发展的市场,比如智能硬件,尤其是穿戴设备和一些带摄像头的,或者带一些语音和麦克风的小的设备。

这些设备原来有一定的ASI或者TTS的能力,或者说有一些图象识别能力,但泛化性很差,商业价值没有办法被发挥出来。今天我们看到淘宝很多类目里面,你搜消费电子产品前面加一个“AI”、加一个“智能”,鼠标、摄像头、耳机、手表排名都很靠前。几乎所有的智能硬件的厂商都在做这件事情。

因为今天不管从投融资角度还是从客户的预期角度,大家对大模型的认知越来越准确、清晰了。一开始觉得什么都行,或者什么都不行,但目前需求开始分层了。有些场景的准确率要求依然很高,需要做精准的幻觉控制,有些场景觉得不需要。我看还有人做审核,对前面所有链路做了大幅提效,这个场景还是挺有意思的。

我个人觉得越来越乐观,今天有跑不完的客户提需求,而且需求越来越分层,这是非常有意思的事情。

AIGC应用落地变现的方式

量子位金磊:接下来我们聊一个更直接一点的问题:怎么变现,怎么赚钱?

还是想先请徐总分享一下,通义千问目前在C端没有采取收费模式,接下来在商业变现方面有怎么样的计划呢?

阿里云徐栋:我们对标其他厂商的话,比如ChatGPT就是订阅制,对用户收订阅费,根据时间观察我们的action是什么,我想先分享一下大的逻辑。

我觉得一旦有新的技术出现之后,会形成新的产品体验,新的产品体验会把流量吸过来,快速形成洼地,基于流量看到有很多很成熟的商业模式。不管是广告,还是最早的短视频和直播,都跟广告和电商有关,还有些做金融服务、增值服务卖虚拟商品等等等等。今天还没有看到C端产品到两千万DAU,每个DAU时长超过60分钟,所以今天聊商业化或者长期商业化还有点过早。

而今天成熟的商业模式还是就那些,LM-Base的Agent或者说to C的应用,有没有可能产生一些新的付费模式?我觉得是有可能的。

有可能是一个订阅制的模式,但订阅制模式有点太泛了,需要订阅多个AI Agent,不同Agent之间怎么通信,这些东西可能都是随着下半年multi-agent架构越来越成熟再解决。比如一个To C产品背后不是一个模型,它可能是多个模型,甚至多个模型上面分装出的多个Agent,之间会相互通信。

我在线下跟高总聊multi-agent这个架构,这个架构其实未来可以看到这样的情况。

假设我们致力于做一家量化教育的基金或者私募,今天首先需要一个做基本面分析的分析师,需要一个在二级市场搜集信息、爬取数据的一个角色;同时需要有个写代码的人;另外还有去挑战前面所有人逻辑的反对者,它可能就是multi-agent架构。基于这个架构可能就会产出一个小型的私募量化交易公司,有可能持续迭代,甚至可能会比人的例如效果会更好一点,因为它所有记忆都会存在,也很理性。

我想当下单个To C,尤其是像ChatGPT场景,是不是订阅费是唯一的方法呢?我觉得现在聊这个可能过早。我们可以到下半年看一看,看看有没有新的商业模式可以跑出来,不管是Kimi也好,还是其他的厂商。

我们看到现在流量增长都非常快,但是具体怎么收费,我觉得是一个短期还没有那么明确,可以观察一下下半年基于multi-agent架构,或者多模态的架构,有没有新的商业化的可能性出现。

量子位金磊:那么高总,请问咱们产品面向B端进行商业变现,是按需付费还是其他的模式?以及对未来新出现的变现模式有什么样的想法?

轻松高玉石:我们是健康保障的科技公司,做很多东西还是围绕着既有业务和生态整合的。所以我们变现模式相对非常纯粹的AI公司来说更自如一点。

我们目前的产品主要服务大量C端用户,他们对健康有很大的需求,包括还有一些机构、医生。所以说我们变现模式是围绕这些用户做的。C端围绕增值服务,我们提供一些保险的保障,还有健康TPA的服务,包括用户可以通过商城、通过健康管家的服务来购买我们健康的产品,甚至有些用户对于我们客户的知识比较感兴趣的话,可以买高端科普的内容。

而B端主要以安全付费的方式。一类像医疗、医药的机构做临床研究,他会做一些付费,另一部分则是还有很多的机构的用户,有健康教育的需求,这类需求也是可以得到满足的。

量子位金磊:那么周总这边呢?

澜码周健:我们做AI Agent,最近大厂把这个品类炒起来了,甲方现在要采购一个Agent平台基本上成为共识。这是传统软件的方式。

还有一些应用的方式,不管像刚才提到的信贷尽调报告,还是政策解答,我们看到有一种可能性,可以按照数字员工按月收费。因为现在很多业务的客户,比如像某个分行在很多时候去采购GPU算力非常困难,需要找算力厂商。这套用现在比较时髦的词来说就是,AI智能体是新质生产力,专家知识、模型、算力都是全新的生产要素。

假如算力厂商愿意以租用的方式,倒过来变成分行每个月雇佣员工一样付费,再分成分给模型或者说算力的厂商,这是现在正在探索的一种新的商业模式。

AIGC应用的价值

量子位金磊:好的,那接下来这个话题是比较开放的:AIGC应用的价值。

因为三位嘉宾每个人所身处的细分赛道也是不同,想必感受也是会有略微的不同。我们按照顺序,从高总这边来依次聊一聊,您觉得什么样的AIGC产品才算是好产品,才算有价值,这个有价值的标准是什么?

轻松高玉石:从企业经营角度,特别这两年基本上各家企业都比较频繁的提到一个概念,就是降本增效增收。如果我们把它扩展到C端的层面,可能还会有一个体验的点。

我觉得这四个点同样适用于,现在去评价AIGC产品到底有没有价值。就是对于个人,对于企业,对于社会有没有做到降本、增效、增收,或者说带来很好的体验。如果能做到其中的一到两个点,我觉得这个产品在严格意义上是有价值的。

量子位金磊:徐总呢?

阿里云徐栋:我觉得大家思路差不多,看ROI。

这样一个场景,或者产品,或者用了大模型,用和没用之间的差额是什么样子。大家都知道用大模型是有成本的,而且成本不低,起码从目前来看,背后是跟GPU挂钩的。所以我觉得ROI这件事情是衡量到底有没有价值的第一标准。

但是每个企业来评价ROI的逻辑和方法是不一样的。比如一个场景是,一个企业每个月大概有百万左右的询单,但是销售只能接触其中10%的订单,原因是大量商品是非标的,需要去通过工单的方式问技术人员,技术人员给他一来一回的反馈。那如果你让客户来补充这个信息,客户可能只发一个截图过来,我只要这个商品,你给我报个价。所以在这种场景下面,90%的生意都丢失了。

但如果在这种场景下,用AI的方式就很容易理解。用一个chat bot也好,还是说能够自动生成一个报价单,让90%那原本会丢掉的生意能够接起来,这就是对这个企业的ROI的非常正面的场景。

所以在这种场景下,对成本不会特别敏感,就会达到非常好的ROI的效果。

但这个前提也很复杂,需要建很好的知识库、需要把RAG调到自己觉得可用的状态、模型推理效果要好、最后生成的格式是相对标准化的,并且可能还要嵌入到工作流里面,能让最终销售人员点击确认……所以还是一个比较复杂的体系。但很明显大家能感受到,这个场景是ROI比较高的场景。

还有一些用法不一样,就是短视频公司、互联网公司,拿大模型或者是AIGC内容做导流。大家都知道通义千问上面有一个场景叫做全民舞王,给一张照片能让里面的人跳起来。因为这个场景非常有意思,能做流量转化,很多互联网公司愿意拿这样一个场景对外投放,投放能导回到APP,对他来说也是算ROI。

所以我觉得每个行业、每个场景的价值判断不太一样,但是唯一标准是看投出去算力卡的资源和最终收益比例是什么样子。有的很敏感,有的不一定很敏感。

比如按照云计算的逻辑看,其实手游绝大部分都在云上面。当时我们测算过,云的成本占手游公司的收入差不多是2%-4%,这就是ROI非常大的场景。因为手游核心成本除了人力之外就是服务器的成本,因为要扩服。

我觉得如果未来大模型的成本或者算力的成本,能够占到客户营收或这件事情的10%以下,那我觉得就是非常成功,行业变化一定非常大。

量子位金磊:那么请问周总这边,您觉得什么样的AI Agent产品是有价值的?

澜码周健:第一个是所谓的岗位增效。过去AI 1.0时代,是用数字化的方式把岗位的重复性工作替代掉。今天提供了一个可能性,是说能够用专家的方式把这个岗位的部分任务自动化掉,这其实是一个很明显的提供价值的方式。

第二个是管理的增效。我们现在有个客户是做中介平台,交易员很多信息其实没有被传递到其他交易员那里去,AI Agent就相当于在流程当中,能够把这个信息更有效、更及时、更可信地传递出去。

过去一直说前线听得到炮火声的人能够呼唤炮火,但中间还是需要通过人去传递信息,所以速度会慢,信息会有失真。今天如果中间是一些AI智能体去负责传递,前线可能只是把这个信息像无人机一样传递回去,后台由Agent总结,再让专家做出决策,这可能会带来更大的价值。

就像我刚才提到的,我们有服务过一个猎头公司,他内部有700个猎头,一年可能发4500个offer,最终接受offer的只有3000个,剩下1500个是优秀的候选人,那么能不能通过他内部的700个猎头把这1500个优秀候选人的线索传递出去?这产生的价值其实很难用岗位增效去衡量。本质上,基于大语言模型的AI提升了信息处理的生产力,我们其实能看到它在管理上的增效。

One More Thing:百模大战,还有必要吗

量子位金磊:熟悉量子位的朋友都知道,在我们公众号文章底部,经常会有一部分内容叫“One More Thing”,这次我们在圆桌也设置了这样一个环节,想请三位嘉宾发表一下自己的看法。

现在AIGC应用的产品越来越多,对于市场和用户来说是一件好事情,可以促使产品自身变得更加优质。但是反过来看底层的大模型,去年百模大战的盛况,现在还有必要吗?训那么多的大模型,是不是资源的浪费、重复造轮子?以及会不会出现大模型层面上的一次大洗牌?

先请高总聊一聊。

轻松高玉石:百模大战如果是高质量的、确实投入真金白银去做的,我个人觉得是比较有价值的。

因为目前AI这一波的发展,特别是生成式AI这一波的发展,整体还是暴力美学的逻辑,是靠大量堆算力、堆数据去做的,就是一个典型的scaling law的方式。所以说为什么会这样,它的一些理论到现在也没有完完全全地透彻出来。整个模型从训练到推理各个环节,现在也还是有存在很多需要去探索的地方。

举个例子,我在前两天看到中科院发了论文,意思是说百度贴吧的弱智吧是最强的中文语料库,训练处理模型的效果甚至要超过豆瓣、小红书、百科这一类,过往认为是非常高质量的传统内容平台。

所以这种高强度的竞争,必然会加速对未知、未确定东西探索的过程。而这对于加快整个AI一系列技术的发展是比较有价值的。只是在这个过程中,可能适当做得更开放一点,可以缓解一些资源损耗。

至于会不会出现洗牌,我个人的观点是看现在整个AI技术发展的曲线,依然是非常陡峭的,还没有看到任何放缓或者说见顶的态势。在这种情况下,其实很难判断会不会见顶。

举一个最明显的例子,AI视频领域,在去年像Runway或者Pika基本上就是风头无二的状态,但是今年初Sora一出,整个AI视频领域竞争态势发生了很大的变化,现在像Runway或者Pika的处境也是挺微妙的。

但是这不代表着所有东西都是不确定的,我觉得还是有一定的确定性。因为目前这一波AI是重资本、重算力、重数据、重人才大的方式。所以洗牌大概率会发生在科技巨头,或者说这些巨头支持的创意公司。而且我个人觉得后者的可能性会更大一些。当然目前还是局限于整个基模这一套,因为在应用层面完全是另外一套逻辑。

量子位金磊:那徐总您觉得现在还需要那么多大模型吗?

阿里云徐栋:如果站在我的工作角度当然不需要,大家用通义千问就可以了。

事实上我们可以把这个问题稍微剖析一下,看看是不是所有大模型都是同质的?如果都是同质的,那么这个问题可以探讨一下。

大家知道过去很多做基模的团队,有一些做垂直模型,比如做金融模型、做教育模型等等。以我们的观察来说,这样的方向可能有一定的价值,因为其实是它们有独立的词表、有自己特定的下游任务,有一些自己finetune用的数据对在里面,包括对齐的方式都不一样。所以我们可能还需要探讨一下,所谓的基础模型强调的是所有东西都懂,而且还有很好的泛化性。

那垂直模型未来不一定叫垂直模型了,有可能叫垂直的Agent,有可能因为上面的插件会有差异化所独占的特点,它的词表到下游任务、到对齐方式可能完全不一样。甚至可以阉割掉很多基模原有的能力,就为这个场景服务;有可能能在成本和性能方面做到极致。

其实市场有很多小的模型,其实做得也非常好,就是专门做闲聊方面,成本极低,千token的成本甚至可以做到1厘以下,这也是非常好的方式。

所以我觉得关键看训练这个模型的团队目标是为了去对标ChatGPT,还是说解决具体的问题?这可能会不太一样。这是第一个角度。

第二个角度是,过去这样卷挺好的,好在哪里?好在人才都慢慢被培养出来。过去很多人才都是从NLP或者CV领域慢慢转型到大模型,去做这件事情。大家卷到后面会发现一个问题,其实并不是要做模型架构,而是很多人会重新理解数据工程。

什么叫好的数据、数据的多样性是什么样子的。比如音乐数据和语文数据和数学数据,多样性是什么样子的;每个数据怎么构建复杂度。因为数据构建越复杂,最后的效果可能会更好。

另外什么叫做好的数据质量,包括不同的数据的配比。为什么我觉得这件事情是有意义的,是因为很多基模的知识经验,未来完全可以被复用到在下游任务的finetune环节。因为知识会传播,所以有这么多人才做这件事情,这对未来整个模型探索商业化,最终搭出足够有用的、正ROI的Agent一定有非常大的帮助。

所以从我的角度来说,我觉得过去卷一卷并没有造成太多浪费,还是挺好的一个方向。当然也特别欢迎大家多用用通义千问,不管是开源还是闭源的,因为效果确实还是不错的。

量子位金磊:最后请周总谈谈对于这个问题的看法。

澜码周健:我觉得既多又不多。我挺同意徐总讲的,攀科技树这边最后应该只会剩下几家,因为中国并不需要一百家能够追赶GPT4、GPT-5的大模型公司。

今天从商品的角度上来讲,往下细分,比如像代码的生成模型已经明显占据一个品类了,而其他的大家现在更多都是在用13B、33B、72B,这是很诡异的一件事情。包括像大家买商品买的是代码模型、金融模型,不会买一个多少参数的模型。我觉得不同专业场景下会有不同的数据集,他们能够发挥出来更好的用途。

当然,因为这波风潮,准备好了这些人才,随着产业逐步分化、融资游戏结束之后,二线大模型公司要找自己的定位,就需要进场景,找我们应用方、场景方合作做一些市场,正向叫Scaling law,反向实际上它需要的算力并不多。其实越小的模型,通用性能力会越弱,只能用作专业性。而就专业性情况来讲,13B可能需要100个,70B可能需要10个,万亿模型只需要2、3个,这是我现在能看到的情况。

而我们这样做Agent的厂商,希望在各种场景当中选需要的模型,现在模型都没有什么描述,包括产品、feature、list都没有,需要各种各样去测才知道什么场景用哪个,这是行业最早期的时候。

我相信跟软件行业一样,最终会细分到ERP、CRM、OA等功能,而不会说我这是7B模型,我这是33B模型。并且下半年逐步会出来细分的模型,上面做应用的厂商就会更容易一些。如果每个应用厂商都要测,太浪费整个行业的精力了。

量子位金磊:非常感谢三位嘉宾从不同角度数据、人才、资源等等方面分享自己关于这个问题的观点。由于时间问题,这场圆桌到此结束了。至于AIGC应用下半年又会怎么发展,我们明年大会再揭晓答案,谢谢大家。

首页
评论
分享
Top