与数据持有方对抗白热化,数据获取难题凸显

近期,人工智能领域的知名专家吴恩达谈到了数据许可的相关研究,这一话题引起了广泛的关注。获取开放数据变得越来越不易,而本身就面临数据荒的 AI 领域因此遭受了更大的打击!这种情况究竟会对 AI 的未来发展带来何种影响?让我们探讨一番。

数据开放收紧现状

吴恩达在网站上提到的研究表明,C4、Dolma等开源数据集所采集的网站,迅速收紧了许可协议。其中,CommonCrawl、C4和Crawl的受限比例高居前三,均超过80%。这表明,用于AI模型训练的开放数据获取正面临巨大的挑战。从数据来看,AI行业的数据获取形势正变得越来越严峻。

网站所有者普遍加强了协议的约束。最近,不少网站更新了规定,对数据抓取进行了限制,这使得AI企业从网络中收集数据变得相当困难,数据获取的难度显著增加,AI发展的基础资源面临短缺的困境。

AI 行业数据需求根源

当前,生成式人工智能技术正迅速进步,为了为大模型提供充足的数据,科技公司广泛搜集信息,导致网络爬虫数量在近两年显著增加。数据是AI大模型训练的根本,只有输入大量数据,模型才能充分学习,从而提高其性能。以语言模型为例,若要其准确生成文本,就输入大量的文本资料。

大模型的精确度和广泛适用性都依赖于大量数据,而数据的优劣和多少直接关系到人工智能模型的表现。若数据不足,模型的训练效果便会显著降低。这就像烹饪时缺乏足够的食材,做出来的菜肴自然不会美味可口,AI模型的训练也是如此。

爬虫面临的争议问题

爬虫程序依据既定规则自动抓取网络上的数据资讯,不过这其中也有模糊地带。这类工具能让用户轻松广泛地收集网页信息,然而,它们也常因涉嫌侵犯数据所有者和用户的隐私而受到非议。举例来说,某些爬虫软件可能在用户毫无察觉的情况下搜集他们的个人信息,从而引发隐私泄露的隐患。

今年七月,某公司动用爬虫技术,对美电商及指南网站进行大量数据抓取,无视了网站的使用协议。这种行为导致目标网站服务器负荷过重。这种现象不仅干扰了网站的正常运作,还违反了数据使用规范,加剧了爬虫技术的争议,引起了社会的广泛关注。

传统爬虫的行业生态

图片[1]-与数据持有方对抗白热化,数据获取难题凸显-东山笔记

在“数据为王”的当下,尽管爬虫技术存在一定的争议,但它却极大地便利了数据的深度挖掘。在爬虫协议的规范下,行业逐步构建了一个以搜索引擎为核心场景的商业生态系统。搜索引擎通过抓取网站内容,使得网站能够获得相应的流量回报;比如,谷歌与互联网公司签订协议,不仅向其他网站输送流量,还在搜索结果中销售广告。

在这种机制下,数据所有者与利用者能够建立起良好的互动模式,数据得以在恰当的界限内流通与应用,各相关方均能从中获益。众多互联网站点乐意接受搜索引擎的抓取,主要看重由此带来的流量,这对它们的宣传和业务拓展大有裨益。

AI 爬虫冲击传统模式

与传统网站被搜索引擎抓取带来的流量不同,数据持有者在AI公司的爬虫活动中不仅无法获得收益,反而面临自身业务可能被“喂养”出的巨型模型所取代的风险。AI公司广泛搜集数据以训练这些大型模型,这可能导致它们自身的业务被这些模型所取代,比如大型模型直接生成的内容可能会替代某些网站所提供的信息。

尽管2023年8月某些企业推出了爬虫软件,并声称在重视版权的前提下以公开手段搜集网页内容,然而,众多数据所有者仍然心存疑虑。他们害怕自己的数据被不当使用,从而损害到自己的利益和业务发展,因此,他们选择了限制许可协议的条款。

对 AI 发展的潜在影响

研究人员担忧获取数据的不便,这不但会妨碍商业人工智能模型的训练,还会给学术界和非营利机构的研究带来不便。商业人工智能模型的训练需要大量且多样化的数据,数据获取的局限性将阻碍模型性能的提升。以图像识别模型为例,若不能获得足够多不同类型的图像数据,模型的识别准确度将会受到影响。

在学术领域和非营利组织里,他们的研究同样需要依赖数据支撑。一旦无法获得开放的数据资源,研究工作的推进速度就会受到影响,创新活动的开展也会受到限制。这种情况将会对整个人工智能行业的发展速度造成影响,不利于技术的进步和广泛推广。从长远角度考虑,这还将对社会的发展带来不利的后果。

亲爱的读者们,当前我们面临数据获取越来越不易的情况,那么在您看来,人工智能领域应如何应对数据短缺的挑战?期待您在评论区留下您的看法,同时,也请您给予这篇文章点赞和转发,以便让更多的人了解并关注到AI行业在数据方面的困境。

© 版权声明
THE END
喜欢就支持一下吧
分享