如果您使用过ChatGPT Search或Perplexity,您就会知道,能够搜索网络并查看内联引用可以大大改善这些 AI 聊天机器人。当涉及及时信息时,结果会更好,并且网络搜索可能会减少所谓的幻觉(即生成式 AI 输出不正确的信息)。
因此,法国初创公司Linkup正在构建一个 API,让开发人员能够从优质、可信的来源访问网络内容,并将结果交给大型语言模型 (LLM) 以丰富其答案。许多 AI 开发人员将此工作流程称为检索增强生成 (RAG)。
更重要的是,抓取机器人的未来充满不确定性。如果内容发布者和抓取网页的实体之间没有预先达成的财务协议,这些机器人就会从开放的网络上窃取内容而不付费,而许多人对这种交易并不满意——这加剧了对人工智能培训的监管审查。
现在还有一些备受瞩目的法律案件,例如ChatGPT 的制造商 OpenAI 与《纽约时报》之间正在进行的诉讼,因此网络抓取的形势可能会在不久的将来发生变化。因此,OpenAI 已与 AP、Axel Springer、Condé Nast、El País、《金融时报》、《世界报》等主要出版商签署了多年内容许可协议。
“我们成立这家公司的时候,OpenAI 正在与新闻来源达成交易……用于训练或推理目的,以增强 OpenAI 模型及其产品的答案。我们想:‘好吧,这很棒,因为我们终于有人工智能公司向其来源付费了,’”Linkup 联合创始人兼首席执行官 Philippe Mizrahi表示,他阐述了是什么促使创始人成立一家公司,将人工智能开发者与内容提供商联系起来,希望双方都能从中受益。
目前,内容发布者面临着如何应对 GenAI 对数据的渴求的艰难决定。他们可以使用不具有法律约束力的 robots.txt 元数据文件来阻止网络爬虫,该文件指示网站是否可用于训练 AI 模型。此外,他们可以起诉他们认为侵犯了版权的 AI 公司。或者,他们可以让机器人自由地索引他们的内容(呃,YOLO?)。或者他们可以将内容授权给 AI 开发者以获得对其知识产权的一些补偿。
但有成千上万家科技公司使用 A,它们没有 OpenAI 那样的规模和影响力。与此同时,网络的优点在于内容发布者数量众多。但这意味着小型内容发布者通常没有足够的财力提起诉讼。这也意味着,对于数百万个网站来说,从抓取模式转向许可模式将非常困难。
这就是为什么 Linkup 不仅仅是一个技术解决方案。它是一个市场——内容发布者和希望用网络内容补充其 LLM 答案的公司之间的中介。
Linkup 与出版商签署内容许可协议,并与其 CMS 集成,这样它就可以从出版商处获取内容而无需任何抓取。然后,Linkup 根据其内容被 Linkup 客户访问的频率向内容合作伙伴支付费用。
Mizrahi 表示:“我们真正瞄准的是那些在自己的产品中实现 AI 的应用程序。因此,典型的用例是我使用 Mistral 或 OpenAI 的模型创建一个 AI 应用程序。我建立了自己的管道,但我需要用外部信息来丰富这个管道。”
顺便提一下,虽然 ChatGPT 可以浏览网页,但 GPT 模型却不能。OpenAI 提供了一款非常受欢迎的应用程序 (ChatGPT) 和开发人员可以通过 API (GPT) 使用的 LLM。但网页搜索是 ChatGPT 的一项功能。
“我很喜欢一个例子,我们的一个客户……为他们的销售人员开发了一个内部应用程序,”Mizrahi 还告诉我们。“一方面,他们列出了自己产品的所有优势。多亏了我们,他们获得了关于潜在客户的最新、高质量的信息,并将其放入 Mistral LLM 中。Mistral 的 LLM 将为销售代表生成一种销售宣传,当他们与客户线索通话时,他们面前就会有这种宣传。”
起初,Linkup 决定专注于企业和商业信息。除了新闻网站,这家初创公司还与知识数据库合作——比如 Statista、Xerfi 或其他同类资源。
它并不是唯一一家在幕后与 LLM 签订授权合同、致力于将优质内容引入 LLM 的初创公司。最明显的竞争对手是ScalePost,这家初创公司与 Perplexity 合作,以加快与出版商的授权交易。
几个月前,Linkup 从 Axeleo Capital、Motier Ventures、Seedcamp 和 100 名天使投资者手中筹集了 300 万欧元(按当前汇率计算为 320 万美元)的种子轮融资。目前,这家初创公司约有 10 名员工,并计划在明年再招聘 10 名员工。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/linkup-jiang-fa-xue-shuo-shi-yu-you-zhi-nei-rong-yuan-lian