人工智能网络数据基础设施层的出现

人工智能的下一个前沿可能取决于新的网络数据基础设施层,该基础设施层可以使模型能够发现和映射这个不断扩展的数字领域。该层必须能够导航数亿个现有 Web 域和每周创建的数十亿个新 URL,提供实时信息并克服技术障碍。

“数据表明,还有更多的数据,”网络数据收集平台 Bright Data 的首席执行官 Or Lenchner 说道。 “想想宇宙:它就在那里,但你不知道你不知道什么。”

允许访问新鲜、相关且值得信赖的数据

虽然早期的人工智能突破是通过扩展训练数据和模型大小来推动的,但组织现在遇到了一个根本瓶颈:他们需要跟上网络数据的动态、非结构化和不断发展的性质,以便以当前和可验证的信息为基础输出。人工智能性能越来越不仅取决于模型架构,还取决于系统的计算、网络、检索和数据工程能力,即系统快速可靠地检索新鲜、相关且值得信赖的数据的能力。

传统的模型训练依赖于在特定时间点收集的信息快照。在此类静态数据上训练人工智能已经不够了。为了跟踪竞争对手定价、消费者情绪和市场趋势等波动,公司需要不断提供新信息,实时提取数据以及相关背景。因此,他们的基础设施必须能够处理数百万个跨网站的同时交互,这些网站因地理位置、语言、格式和访问规则而异。

“如果它无法检索实时信息,那么它就缺乏上下文,”伦奇纳说。 “在商业环境中,这已经不再可接受。陈旧的答案会导致错误的决策并使消费者失望。”

速度不仅仅是方便的问题,更是一个问题。这是一个必然的问题。当今的组织在价格、库存、市场、安全威胁和客户行为不断变化的环境中运营。延迟的数据检索会降低复杂模型的实用性。

使用实时、高质量的网络数据还可以减少人工智能幻觉,因为该模型拥有更相关的知识库。这建立了用户信任。事实上,一项调查发现,56% 的人工智能从业者表示,企业需要访问实时网络数据,以提高对人工智能输出的信任。为了确保模型高效且有效地运行,信息还必须精简到适当的要素。

尽管引入了检索增强生成(RAG)(模型在查询时提取外部数据),但许多人工智能系统仍然难以提供当前、上下文相关且在操作设置中值得信赖的输出。据 Gartner 称,到今年年底,60% 没有人工智能就绪数据(准确、结构化、有组织和情境化)支持的人工智能项目将被放弃。

#人工智能网络数据基础设施层的出现

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注