人工智能训练研究货币化：风险与最佳实践

王浩然 • 2024年12月26日下午5:00 • AI前沿 • 79 views

随着对生成式人工智能的需求不断增长，对用于训练这些系统的高质量数据的需求也在不断增长。学术出版商已经开始将其研究内容货币化，为大型语言模型 (LLM) 提供训练数据。虽然这一发展为出版商创造了新的收入来源，并为生成式人工智能赋予了科学发现的力量，但它引发了有关所用研究的完整性和可靠性的关键问题。这提出了一个关键问题：出售的数据集是否值得信赖，这种做法对科学界和生成式人工智能模型有何影响？

货币化研究交易的兴起

包括 Wiley、Taylor & Francis 等在内的主要学术出版商报告称，他们通过向开发生成式 AI 模型的科技公司授权其内容获得了可观的收入。例如，Wiley 透露，仅今年一年，此类交易就为该公司带来了超过 4000 万美元的收入。这些协议使 AI 公司能够访问多样化且广泛的科学数据集，从而可能提高其 AI 工具的质量。

出版商的宣传很简单：授权可以确保更好的人工智能模型，造福社会，同时用版税奖励作者。这种商业模式对科技公司和出版商都有利。然而，将科学知识货币化的趋势日益增长，存在风险，尤其是当可疑研究渗透到这些人工智能训练数据集时。

虚假研究的阴影

学术界对研究造假问题并不陌生。研究表明，许多已发表的研究结果存在缺陷、偏见或不可靠。2020 年的一项调查发现，近一半的研究人员报告了选择性数据报告或设计不良的实地研究等问题。2023 年，超过10,000 篇论文因结果造假或不可靠而被撤回，这一数字每年都在攀升。专家认为，这个数字只是冰山一角，无数可疑的研究在科学数据库中流传。

这场危机主要是由“论文工厂”推动的，这些影子组织伪造研究，通常是为了应对中国、印度和东欧等地区的学术压力。据估计，全球约有 2%的期刊投稿来自论文工厂。这些虚假论文可能看起来像是合法的研究，但充斥着虚假的数据和毫无根据的结论。令人不安的是，这类论文通过了同行评审，最终出现在受人尊敬的期刊上，损害了科学见解的可靠性。例如，在 COVID-19 大流行期间，有缺陷的伊维菌素研究错误地暗示了其作为治疗方法的有效性，造成了混乱并延迟了有效的公共卫生应对措施。这个例子凸显了传播不可靠研究的潜在危害，有缺陷的结果可能会产生重大影响。

对人工智能训练和信任的影响

当 LLM 在包含欺诈或低质量研究的数据库上进行训练时，其影响是深远的。AI 模型使用其训练数据中的模式和关系来生成输出。如果输入数据被破坏，输出可能会延续不准确性，甚至放大不准确性。这种风险在医学等领域尤其高，因为错误的 AI 见解可能会带来危及生命的后果。
此外，这个问题还威胁到公众对学术界和 AI 的信任。随着出版商继续达成协议，他们必须解决对所售数据质量的担忧。不这样做可能会损害科学界的声誉并破坏 AI 的潜在社会效益。

确保人工智能数据的可靠性

要降低有缺陷的研究扰乱人工智能训练的风险，需要出版商、人工智能公司、开发者、研究人员和更广泛社区的共同努力。出版商必须改进同行评审流程，在不可靠的研究进入训练数据集之前将其发现。为审稿人提供更好的奖励并制定更高的标准会有所帮助。开放的审查流程在这里至关重要。它带来了更多的透明度和问责制，有助于建立对研究的信任。
人工智能公司在为人工智能训练寻找研究时，必须更加谨慎地选择与谁合作。选择在高质量、经过良好评审的研究方面享有盛誉的出版商和期刊是关键。在这种情况下，值得仔细研究出版商的过往记录——比如他们撤回论文的频率或他们对审查过程的开放程度。有选择性可以提高数据的可靠性，并在人工智能和研究社区中建立信任。

AI 开发人员需要对他们使用的数据负责。这意味着要与专家合作，仔细检查研究，并比较多项研究的结果。AI 工具本身也可以设计为识别可疑数据并降低可疑研究进一步传播的风险。

透明度也是一个重要因素。出版商和人工智能公司应该公开分享研究成果的使用方式和版税去向的细节。像生成式人工智能许可协议追踪器这样的工具很有前景，但需要更广泛的采用。研究人员也应该对自己的工作成果的使用方式有发言权。选择加入政策，比如剑桥大学出版社的政策，让作者可以控制自己的贡献。这可以建立信任，确保公平，并让作者积极参与这一过程。

此外，应鼓励开放获取高质量研究成果，以确保人工智能发展的包容性和公平性。政府、非营利组织和行业参与者可以资助开放获取计划，减少对商业出版商获取关键训练数据集的依赖。除此之外，人工智能行业需要明确的规则来以合乎道德的方式获取数据。通过关注可靠、经过良好审查的研究，我们可以构建更好的人工智能工具，保护科学的完整性，并维护公众对科学和技术的信任。

结论

将研究成果转化为人工智能训练成果既带来了机遇，也带来了挑战。虽然授权学术内容有助于开发更强大的人工智能模型，但也引发了人们对所用数据完整性和可靠性的担忧。有缺陷的研究，包括来自“论文工厂”的研究，可能会破坏人工智能训练数据集，导致不准确，从而可能损害公众信任和人工智能的潜在利益。为了确保人工智能模型建立在可信数据之上，出版商、人工智能公司和开发者必须共同努力，改进同行评审流程，提高透明度，并优先考虑高质量、经过严格审查的研究。通过这样做，我们可以保障人工智能的未来，维护科学界的诚信。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ren-gong-zhi-neng-xun-lian-yan-jiu-huo-bi-hua-feng-xian-yu

剑桥大学出版社包容性和公平性选择加入政策

Like (0)

王浩然作者

0 0

2024 年计算机视觉文献趋势的个人看法

Previous 2024年12月26日

微软的 AI 生态系统如何胜过 Salesforce 和 AWS

Next 2024年12月26日

AI前沿

Meta 正在使其用 AI 工具编辑或修改的内容看上去不那么明显。

Meta 正在改变其标记 Instagram、Facebook 和 Threads 上被 AI 工具编辑或修改的内容的方式。对于此类内容，Meta 正在将“AI 信息”标签移至帖子…

王浩然
2024年9月14日
000
AI前沿

人类视觉模型的基础

大规模预训练以及随后针对特定任务的语言建模微调取得了巨大成功，这种方法已成为一种标准做法。同样，计算机视觉方法也逐渐采用大规模数据进行预训练。LAION5B、Instagram-3…

点点
2024年9月11日
000
AI前沿

Meta 推出 AI 工具，让机器人在现实世界中拥有人类的触感

Meta本周发布了几项有关机器人和具身 AI 系统的重大公告。其中包括发布基准和工件，以便更好地理解和与物理世界互动。Meta 发布的三项研究工件 Sparsh、Digit 36…

王浩然
2024年11月3日
000
AI前沿

LLaMA-Omni：与 Siri 和 Alexa 一较高下的开源 AI

中国科学院的研究人员开发了一种人工智能模型，可以改变我们与数字助理的互动方式。这个名为LLaMA-Omni 的新系统能够与大型语言模型 (LLM) 进行实时语音交互，有望改变从客户…

王浩然
2024年9月15日
000
AI前沿

区块链、物联网和人工智能如何塑造数字化转型的未来

当设备、网络和人工智能无缝协作时，就会创建一个更加智能、更加互联的生态系统。这不是一个遥不可及的梦想；随着区块链、物联网和人工智能的融合，这已成为现实。这些技术不再孤立地发挥作用…

王浩然
2024年12月24日
000
AI前沿

‌Sakana声称其AI论文通过同行评审，但情况更为复杂‌

在人工智能领域，每一项新的研究成果都可能引领行业的变革。近日，一家名为Sakana的初创公司宣布，其关于人工智能的最新研究论文已经通过了严格的同行评审。然而，在深入探究后，我们发现…

王浩然
2025年3月13日
000
AI前沿

畅销书作家批评全国小说写作月的人工智能中立立场

全国小说写作月（NaNoWriMo）是一个已有 25 年历史的非营利组织，旨在鼓励任何有兴趣的人每年 11 月创作一本小说。该组织最近宣布将接受使用人工智能 (AI)作为写作过程的…

王浩然
2024年9月5日
000
AI前沿

医生称人工智能正在给患者护理带来麻烦

如今，时不时就会有研究声称人工智能在诊断健康问题方面比人类医生更胜一筹。这些研究之所以引人注目，是因为美国的医疗体系严重崩溃，每个人都在寻找解决方案。人工智能为医生提供了一个潜在的…

王浩然
2024年12月29日
000
AI前沿

Jony Ive 证实他正在与 OpenAI 合作开发一款新设备

/《纽约时报》在一篇重要人物特写报道中证实了艾维离开苹果后的动向。乔尼·艾维已确认他正在与 OpenAI 首席执行官山姆·奥特曼合作开发一个人工智能硬件项目。这一确认是今天《纽约…

王浩然
2024年9月24日
000
AI前沿

销售团队如何利用人工智能来优化转化率

如今，在现代销售中保持竞争力实际上意味着要拥抱最新的技术趋势。自 2022 年底以来（得益于 OpenAI 的 ChatGPT，生成式人工智能进入公众视野），人工智能一直走在这一…

点点
2024年9月26日
000
AI前沿

Vera AI 推出“AI Gateway”，帮助企业安全无风险地扩展 AI

专注于负责任的人工智能部署的初创公司Vera AI Inc.今天宣布其AI Gateway平台全面上市。该系统旨在通过提供可定制的护栏和模型路由功能，帮助组织更快、更安全地实施人工…

王浩然
2024年10月4日
000
AI前沿

人工智能如何塑造民主对话的未来

在当今政治两极分化的世界中，在复杂的社会和政治问题上找到共同点变得越来越困难。随着社会变得越来越多元化，气候变化、移民和经济政策等关键问题上的分歧只会越来越大。让人们聚在一起就复杂…

点点
2024年11月5日
000
AI前沿

Spotter 推出 AI 工具，帮助 YouTube 用户集思广益制作视频创意、缩略图等

为内容创作者提供财务解决方案的初创公司Spotter周二宣布推出其新的人工智能创意套件。该解决方案名为Spotter Studio，旨在为 YouTube 创作者提供整个创作过程的…

王浩然
2024年9月4日
000
AI前沿

特朗普总统废除拜登的人工智能行政命令

上任第一天，总统唐纳德·特朗普撤销了前总统乔·拜登签署的一项2023 年行政命令，该命令旨在降低人工智能对消费者、工人和国家安全构成的潜在风险。拜登的行政命令指示商务部国家标准与…

王浩然
2025年1月21日
000
AI前沿

谷歌称其下一代人工智能代理最早要到 2025 年才会推出

谷歌最早要到明年才会推出Project Astra的技术。Project Astra 是谷歌为实现实时、多模式理解而开展的一项广泛努力，旨在构建人工智能应用程序和“代理”。谷歌首…

王浩然
2024年10月30日
000
AI前沿

微软的 Windows Agent Arena：教 AI 助手操作你的 PC

微软推出了一项突破性的基准测试，名为Windows Agent Arena (WAA)，用于在真实的 Windows 操作系统环境中测试人工智能代理。这个新平台旨在加速开发能够在各…

王浩然
2024年9月15日
000
AI前沿

为什么微软的安全计划和苹果的云隐私现在对企业如此重要

随着网络威胁越来越自动化和恶意化，保护企业数据和隐私变得前所未有的困难。Apple和Microsoft的新安全计划利用其核心云安全和隐私优势来弥补安全漏洞并降低每家企业的风险。微…

王浩然
2024年9月30日
000
AI前沿

这家三人机器人初创公司正与设计师 Yves Béhar 合作，将人形机器人带回家

与克里斯托夫·科斯托尔交谈时，很难知道应该把注意力集中在哪里。他位于帕洛阿尔托的车库里堆满了东西，争相吸引人们的注意力。他的右侧立着一座电子元件塔，上面点缀着闪烁的灯光。他的左侧是…

王浩然
2024年10月15日
000
AI前沿

大厂养不起大模型？

身处于观望期的大模型赛道，似乎任何风吹草动，都让市场有了不同以往的波动。近日，摩根士丹利发布报告称，中国AI正在面临更大的变现问题，文中直接指出AI应用先行者业绩不及预期，金山办…

点点
2024年9月16日
000
AI前沿

Gensparks的Super Agent：通用人工智能代理竞赛中的新星‌

在人工智能领域，通用型代理的竞争格局正日益激烈且充满野心。近日，总部位于帕洛阿尔托的初创公司Genspark推出了其名为Super Agent的快速自主系统。该系统旨在跨多个领域处…

王浩然
1天前
000