文丨扬帆出海 周可
估值30亿美元的Perplexity正在面临一场关于抄袭指控的风波。
不同于ChatGPT和Claude,欧博AI聊天搜索引擎Perplexity并未训练自身基础模型,而是使用开放或商业可用的模型来获取相关信息,并转化为答案。
诞生于2022年的Perplexity在如今的AI搜索领域也是炙手可热的明星产品,不过,在刚刚过去的6月份,《福布斯》指责Perplexity涉嫌抄袭其新闻文章, Perplexity还被其他媒体指责非法抓取网站信息。
Perplexity并非AI界的无名小卒,其背后支持资本涉及英伟达和贝索斯等知名企业和个人,这场抄袭指控的风波在一定程度上给整个AI行业敲响了警钟,关于信息抓取的合法化等问题,其安全边界到底在哪里?
在Perplexity面临抄袭指控的同时,有关Deepfake(深伪技术)成本暴增的信息引发广泛关注。
比抄袭指控更严重的是,Deepfake未来三年带来的损失或将增加到400亿美元,而这其中,就涉及由于AI技术的飞速发展,所带来的视频、音频和文档信息造假等问题。
一方面是AI技术正在渗透进各行各业,从B端企业到C端用户,AI技术的普及正在以前所未有的速度在各领域延伸,另一方面,则是来自对AI技术支持下,AI工具的安全性,合法合规性的保证,以及在抄袭,造假等危及行业发展的情况出现时,反AI工具赛道正在迎来一场规模化发展的市场需求。
AI产品工具的安全合规性该如何保证,抄袭,造假风波压力之下,反AI工具市场会成为一个新方向吗?
抄袭风波再起,反AI抓取工具成热门早在今年4月,Perplexity相关人员就表达了对自身产品合规性的观点,彼时,Perplexity正在以30亿美元的估值寻求一轮新的融资,公司方面表示,它尊重出版商不抓取内容的要求,并且在合理使用版权法的范围内运营。
一方面是指控不道德的抓取为“抄袭”,另一方则表示在“合理”范围内运行。作为AI搜索工具,无论Chatgpt还是Perplexity都必须采用大批量的网络信息抓取以训练其数据并丰富其内容;但另一方面,面对媒体信息采集的“独家”性,以及出版商等对内容的保护需求,Perplexity之类的AI工具如何平衡“抄袭”和“合理合规”之间的关系?
这个问题的争议存在于两个方面:即机器人排除协议和版权法的合理利用。
对于信息产出网站来说,网站有权利使用机器人排除协议来明确标明其不希望被网络爬虫抓取或访问的内容。
从版权法的角度来说,其建立法律框架,在特定要求之下,未经许可或付费使用的内容,不允许被随便抓取。
但是,如何明确这二者的界限,是一个答案相对模糊的问题。
简单来说,Perplexity在抓取一些网站过程中,如遇到明确标明“以其他方式禁止 robots.txt”的文件,从遵从协议的角度,Perplexity会规避这些信息。
但另一个问题在于,如果用户手动向AI搜索工具提供URL,Perplexity 则会相应的帮助用户去进行信息抓取,在此过程中,Perplexity充当的并不是一个爬虫工具,而是帮助用户在检索他们的要求。
更明确一点来说,AI工具抓取了部分网站不允许抓取的内容,那么争议点在于,这个内容的抓取,是AI工具所主导的,还是用户所主导的。
在这种模糊的界限下,媒体方面针对不道德抓取信息指控Perplexity抄袭的问题,也就有了更多可解释的空间。
作为一个AI搜索引擎的头部应用,Perplexity面临的指控在一定程度上代表了现在,乃至未来AI应用在数据训练和为用户提供服务过程中,势必会面临的合法合规困境。
有研究数据显示,网络上排名前1000的网站中,约有26%的网站已经屏蔽 OpenAI的机器人,另有数据证实,超600家新闻出版商已屏蔽OpenAI。
争议空间之下,反AI浪潮带来的市场空间开始被发掘。
比如,云服务提供商Cloudflare推出了一款新的免费工具,以防止机器人抓取其平台上托管的网站数据来训练人工智能模型。
包括谷歌、OpenAI和苹果在内的一些人工智能供应商,允许网站所有者通过修改其网站的robots.txt(告诉机器人可以访问网站上哪些页面的文本文件)来阻止他们用于数据抓取和模型训练的机器人。
Cloudflare方面表示:“当不良行为者试图大规模抓取网站时,他们通常会使用我们能够识别指纹的工具和框架。”“根据这些信号,我们的模型能够适当地将来自规避人工智能机器人的流量标记为机器人。”
Cloudflare还表示,已经为主机建立了一个表格来报告可疑的AI机器人和爬虫,并表示随着时间的推移,它将继续手动将AI机器人列入黑名单。
抄袭的指控,本质上来说是一场对信息的争夺,以及对信息带来商业化价值的利益之战,在此过程中,反AI工具的存在某种程度上来说是两个对立群体之间的刚需。
市场空间也基于此被广泛开拓。
AI造假带来400亿美元损失,华人研究团队争夺视频检测市场在这场反AI战役中,媒体向Perplexity提出抄袭指控,是AI产品之间的资源争夺。
但在另一方向,AI造假带来的问题则关系到C端用户,其辐射面积更广,可能存在的隐患更多,从反AI产品开发方向来看,其市场规模和需求似乎更大。
Deepfake是目前增长最快的对抗性人工智能形式,数据显示,与深度造假相关的损失预计将从2023年的123亿美元增加到2027年的400亿美元。
德勤预计,在深度造假领域,银行和金融服务行业会成为重灾区。
另有数据显示,预计到2024年,世界范围内产生的深度造假事件或将达到14到15万起。
如此庞大的数字令人瞠目。
而更恐怖的问题在于,Deepfake视频的主要受害者一部分是行业高管群体,另一部分则是女孩,包括部分女性名人。
比如企业高管群体,视频和语音的深度伪造可以骗取他们大量的资金。
女孩受害者面临的问题则在于个人形象和名誉的受损,独立研究员Genevieve Oh收集的数据显示,2023 年上传到互联网的露骨深度伪造视频比任何其他年份都要多,Deepfake视频中绝大多数会以未经同意的女性为主角生成色情视频,甚至部分女性公众人物也在受害者之列。
事实上,Deepfake不局限于视频和音频文档等,其技术已经发展到可以创建虚假ID,躲过加密货币网站的检验,从而进行诈骗等活动。
相比之下,Perplexity的抄袭风波还仅仅存在于规则层面的擦边,而Deepfake带来的造假产业链,则是实打实的威胁着人们的资金和信息安全。
早在去年,彭博社就报道称:“暗网上已经存在一个完整的产业链,以20美元到数千美元的价格出售诈骗软件。”
专注于数字货币的新闻网站Coindesk曾发布报道称,2022年加密货币用户因“诈骗、诈骗和黑客攻击”损失了近40亿美元,2023年,这一数字约为约20亿美元。
一方面可以看出,Deepfake带来的欺诈问题的重灾区仍涉及金融相关的领域,另一方面,从2022年到2023年数字货币受诈骗影响带来的损失数据波动也可以推测,随着部分反AI技术和产品的出现,这些产品对于规避深度造假带来的止损效果明显。
Ivanti 发布的《2024 年网络安全状况报告》调查数据显示,74%的受访企业已经看到人工智能威胁的证据,89%的受访者认为人工智能驱动的威胁才刚刚开始。
在面对技术造假带来的威胁,反AI的风还是吹到了视频甄别领域。
当Sora,Pika等还在竞争谁生成的视频更逼真的时候,对于AI生成视频进行鉴别的赛道已经打开市场。
哥伦比亚大学杨俊锋(Junfeng Yang)教授团队开发的名为 DIVID(DIffusion-generated VIdeo Detector)的文生视频检测工具,就是针对Sora、Gen-2 和 Pika 等模型生成的视频进行检测,目前其工具对AI视频监测的准确率已经达到 93.7%。
此前,该团队已于今年早些时候发布了AI生成文本的检测工具Raidar,这款工具在检测文本是否为AI生成的过程中,不需要访问LLM大模型。
当然,从商业价值来说,对AI生成视频进行检测,是市场包括普通用户更需要的产品。
DIVID的诞生恰恰契合了我们前面关注的Deepfake的商业价值市场,据了解,DIVID的研究人员表示,他们的技术有潜力作为插件集成到Zoom中,以实时检测深度伪造电话。
对应此前Deepfake针对的行业高管伪造视频的情况,DIVID的产品在利用技术保护用户,特别是B端市场用户安全方面是一个非常具有参考意义的实践。
当然,这也印证了这个市场未来的空间之大,需要更多的参与者融入进去。
结语AI技术的进步过快,一方面推动了社会多个行业的发展,但与此同时,利用AI去擦边,或者实施违法行为,一直都是存在且在发展中的市场,尽管这个市场并未完全暴露在阳光下,但其背后带来的商业价值越大,对社会的危害也就越高。
“用AI打败AI”或许会成为AI技术发展中一个始终存在的命题。当然,从商业化和道德伦理的角度,正面的反AI产品必然是这个社会所需要的,“用AI规范AI”的时代已经到来。