随着对生成式人工智能的需求不断增长,对用于训练这些系统的高质量数据的需求也在不断增长。学术出版商已经开始将其研究内容货币化,为大型语言模型 (LLM) 提供训练数据。虽然这一发展为出版商创造了新的收入来源,并为生成式人工智能赋予了科学发现的力量,但它引发了有关所用研究的完整性和可靠性的关键问题。这提出了一个关键问题:出售的数据集是否值得信赖,这种做法对科学界和生成式人工智能模型有何影响?
货币化研究交易的兴起
包括 Wiley、Taylor & Francis 等在内的主要学术出版商报告称,他们通过向开发生成式 AI 模型的科技公司授权其内容获得了可观的收入。例如,Wiley 透露,仅今年一年,此类交易就为该公司带来了超过 4000 万美元的收入。这些协议使 AI 公司能够访问多样化且广泛的科学数据集,从而可能提高其 AI 工具的质量。
出版商的宣传很简单:授权可以确保更好的人工智能模型,造福社会,同时用版税奖励作者。这种商业模式对科技公司和出版商都有利。然而,将科学知识货币化的趋势日益增长,存在风险,尤其是当可疑研究渗透到这些人工智能训练数据集时。
虚假研究的阴影
学术界对研究造假问题并不陌生。研究表明,许多已发表的研究结果存在缺陷、偏见或不可靠。2020 年的一项调查发现,近一半的研究人员报告了选择性数据报告或设计不良的实地研究等问题。2023 年,超过10,000 篇论文因结果造假或不可靠而被撤回,这一数字每年都在攀升。专家认为,这个数字只是冰山一角,无数可疑的研究在科学数据库中流传。
这场危机主要是由“论文工厂”推动的,这些影子组织伪造研究,通常是为了应对中国、印度和东欧等地区的学术压力。据估计,全球约有 2%的期刊投稿来自论文工厂。这些虚假论文可能看起来像是合法的研究,但充斥着虚假的数据和毫无根据的结论。令人不安的是,这类论文通过了同行评审,最终出现在受人尊敬的期刊上,损害了科学见解的可靠性。例如,在 COVID-19 大流行期间,有缺陷的伊维菌素研究错误地暗示了其作为治疗方法的有效性,造成了混乱并延迟了有效的公共卫生应对措施。这个例子凸显了传播不可靠研究的潜在危害,有缺陷的结果可能会产生重大影响。
对人工智能训练和信任的影响
当 LLM 在包含欺诈或低质量研究的数据库上进行训练时,其影响是深远的。AI 模型使用其训练数据中的模式和关系来生成输出。如果输入数据被破坏,输出可能会延续不准确性,甚至放大不准确性。这种风险在医学等领域尤其高,因为错误的 AI 见解可能会带来危及生命的后果。
此外,这个问题还威胁到公众对学术界和 AI 的信任。随着出版商继续达成协议,他们必须解决对所售数据质量的担忧。不这样做可能会损害科学界的声誉并破坏 AI 的潜在社会效益。
确保人工智能数据的可靠性
要降低有缺陷的研究扰乱人工智能训练的风险,需要出版商、人工智能公司、开发者、研究人员和更广泛社区的共同努力。出版商必须改进同行评审流程,在不可靠的研究进入训练数据集之前将其发现。为审稿人提供更好的奖励并制定更高的标准会有所帮助。开放的审查流程在这里至关重要。它带来了更多的透明度和问责制,有助于建立对研究的信任。
人工智能公司在为人工智能训练寻找研究时,必须更加谨慎地选择与谁合作。选择在高质量、经过良好评审的研究方面享有盛誉的出版商和期刊是关键。在这种情况下,值得仔细研究出版商的过往记录——比如他们撤回论文的频率或他们对审查过程的开放程度。有选择性可以提高数据的可靠性,并在人工智能和研究社区中建立信任。
AI 开发人员需要对他们使用的数据负责。这意味着要与专家合作,仔细检查研究,并比较多项研究的结果。AI 工具本身也可以设计为识别可疑数据并降低可疑研究进一步传播的风险。
透明度也是一个重要因素。出版商和人工智能公司应该公开分享研究成果的使用方式和版税去向的细节。像生成式人工智能许可协议追踪器这样的工具很有前景,但需要更广泛的采用。研究人员也应该对自己的工作成果的使用方式有发言权。选择加入政策,比如剑桥大学出版社的政策,让作者可以控制自己的贡献。这可以建立信任,确保公平,并让作者积极参与这一过程。
此外,应鼓励开放获取高质量研究成果,以确保人工智能发展的包容性和公平性。政府、非营利组织和行业参与者可以资助开放获取计划,减少对商业出版商获取关键训练数据集的依赖。除此之外,人工智能行业需要明确的规则来以合乎道德的方式获取数据。通过关注可靠、经过良好审查的研究,我们可以构建更好的人工智能工具,保护科学的完整性,并维护公众对科学和技术的信任。
结论
将研究成果转化为人工智能训练成果既带来了机遇,也带来了挑战。虽然授权学术内容有助于开发更强大的人工智能模型,但也引发了人们对所用数据完整性和可靠性的担忧。有缺陷的研究,包括来自“论文工厂”的研究,可能会破坏人工智能训练数据集,导致不准确,从而可能损害公众信任和人工智能的潜在利益。为了确保人工智能模型建立在可信数据之上,出版商、人工智能公司和开发者必须共同努力,改进同行评审流程,提高透明度,并优先考虑高质量、经过严格审查的研究。通过这样做,我们可以保障人工智能的未来,维护科学界的诚信。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ren-gong-zhi-neng-xun-lian-yan-jiu-huo-bi-hua-feng-xian-yu