人工智能开发中脏数据的高昂成本

点点 • 2024年11月5日下午5:00 • AI前沿 • 84 views

众所周知，人工智能开发领域正掀起一股淘金热。根据微软和领英发布的《2024 年工作趋势指数》，超过 40% 的企业领导者预计，他们将在未来几年内利用人工智能 (AI) 彻底重新设计其业务流程。这一重大转变不仅仅是技术升级，更是企业运营、决策和与客户互动方式的根本转变。这种快速发展推动了对数据和第一方数据管理工具的需求。根据Forrester 的调查，高达92% 的技术领导者计划在 2024 年增加数据管理和人工智能预算。

在最新的麦肯锡全球人工智能调查中，65% 的受访者表示，他们的组织经常使用生成式人工智能技术。虽然这一采用标志着一次重大飞跃，但也凸显了一个关键挑战：为这些人工智能系统提供数据的质量。在一个人工智能的有效性取决于训练数据质量的行业中，可靠而准确的数据正变得越来越难以获得。

不良数据的高昂代价

不良数据并不是一个新问题，但在人工智能时代，其影响被放大了。早在 2017 年，麻省理工学院 (MIT) 的一项研究就估计，不良数据使公司的收入损失高达 15% 至 25%。2021 年，Gartner 估计，不良数据平均每年给组织造成 1290 万美元的损失。

脏数据（不完整、不准确或不一致的数据）会对 AI 系统产生连锁反应。当 AI 模型使用低质量数据进行训练时，产生的洞察和预测从根本上就是错误的。这不仅会削弱 AI 应用的有效性，还会给依赖这些技术进行关键决策的企业带来重大风险。

这给企业数据科学团队带来了巨大的困扰，他们不得不越来越多地将有限的资源集中在清理和组织数据上。在DBT 近期发布的一份工程状况报告中，57% 的数据科学专业人士认为数据质量差是他们工作中的主要问题。

对人工智能模型的影响

坏数据对人工智能发展的影响主要体现在三个方面：

准确性和可靠性降低：人工智能模型依赖于从数据中得出的模式和相关性。当输入数据受到污染时，模型会产生不可靠的输出；被广泛称为“人工智能幻觉”。这可能导致错误的策略、产品故障和客户信任的丧失。
偏见放大：脏数据通常包含偏见，如果不加以控制，这些偏见就会根深蒂固地融入人工智能算法中。这可能会导致歧视性做法，尤其是在招聘、贷款和执法等敏感领域。例如，如果人工智能招聘工具是根据有偏见的历史招聘数据进行训练的，它可能会不公平地偏向某些人群。
运营成本增加：存在缺陷的人工智能系统需要不断调整和重新训练，这会耗费额外的时间和资源。公司可能会发现自己陷入了不断修复错误而不是创新和改进的循环中。

即将到来的数据末日

“我们正快速接近一个‘临界点’——非人类生成的内容将远远超过人类生成的内容。人工智能本身的进步为数据清理和验证提供了新的工具。然而，网络上人工智能生成的内容数量正在呈指数级增长。

随着越来越多的人工智能生成内容被推送到网络，并且这些内容是由接受过人工智能生成内容训练的法学硕士生成的，我们正在预见未来第一方和可信数据将成为濒危和有价值的商品。

数据稀释的挑战

人工智能生成内容的激增带来了几大行业挑战：

质量控制：区分人类生成的数据和人工智能生成的数据变得越来越困难，这使得确保用于训练人工智能模型的数据的质量和可靠性变得更加困难。
知识产权问题：由于人工智能模型无意中抓取并学习人工智能生成的内容，因此有关数据所有权和权利的问题随之产生，可能会导致法律纠纷。
道德影响：数据来源缺乏透明度可能导致道德问题，例如错误信息的传播或偏见的强化。

数据即服务成为基础

人们越来越多地寻求数据即服务 (DaaS) 解决方案来补充和增强用于培训目的的第一方数据。DaaS 的真正价值在于数据本身已经针对不同的保真度和商业应用用例进行了规范化、清理和评估，以及流程标准化以适应消化数据的系统。随着这个行业的成熟，我预测我们将开始看到整个数据行业的标准化。我们已经看到零售媒体行业正在推动统一化。

随着人工智能不断渗透到各个行业，数据质量的重要性将日益凸显。重视干净数据的公司将获得竞争优势，而忽视干净数据的公司将很快落后。

人工智能开发中脏数据带来的高成本是一个不容忽视的紧迫问题。数据质量差会破坏人工智能系统的基础，导致错误的见解、增加成本和潜在的道德陷阱。通过采用全面的数据管理策略并培养重视数据完整性的文化，组织可以降低这些风险。

在数据是新石油的时代，确保其纯度不仅是技术上的需要，也是战略上的当务之急。今天投资于清洁数据的企业将成为明天创新前沿的引领者。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/ren-gong-zhi-neng-kai-fa-zhong-zang-shu-ju-de-gao-ang-cheng

MIT 人工智能人工智能开发中脏数据

Like (0)

点点

0 0

Veriff 首席执行官兼创始人 Kaarel Kotkas – 访谈系列

Previous 2024年11月5日

Authenticx 首席执行官 Amy Brown – 访谈系列

Next 2024年11月5日

AI前沿

Meta 让企业能够创建嵌入广告的聊天机器人

在周三于门洛帕克举行的Meta Connect 2024 开发者大会上，Meta 宣布将利用点击消息广告将其人工智能商业聊天机器人扩展到 WhatsApp 和 Messenger …

王浩然
2024年9月29日
000
AI前沿

倾听技术用户的声音——他们引领了历史上最具颠覆性的创新

1971 年，现代互联网的前身高级研究计划局网络 (ARPANET) 拥有约 1,000 名用户。@ 符号当时还不为人所知。后来，工程师雷·汤姆林森 (Ray Tomlinson …

王浩然
2025年1月12日
000
AI前沿

司法部新提案：谷歌仍需剥离Chrome浏览器，但允许AI领域投资‌

近日，美国司法部针对谷歌公司提出了一项新的提案。该提案依旧要求谷歌剥离其Chrome浏览器业务，但同时明确表示，允许谷歌在人工智能（AI）领域进行投资。此提案一出，立即引发了业界…

王浩然
2025年3月11日
000
AI前沿

Meta向移动开发人员推销VR，在Quest上对Android应用程序提供新支持

在周三的Meta Connect会议上，该公司向开发人员推销其Quest混合现实平台，作为下一个大型应用程序商店。随着苹果和谷歌等科技巨头对其应用程序商店垄断的监管受到严格监管，M…

free
2024年9月26日
000
AI前沿

微软开始向出版商支付 Copilot 展示内容的费用

微软将向出版商支付在 Copilot Daily 中出现的内容的费用，Copilot Daily 是其基于 AI 的跨平台助手 Copilot 的一项新功能。 Copilot Da…

点点
2024年10月2日
000
AI前沿

美国版权局称，人工智能生成的内容可受版权保护——只要人类参与或编辑

美国版权局负责管理政府对电影、电视节目、小说、艺术、音乐甚至软件等人类创作的作品的版权保护，该局在今天发布的重要且有用的更新中澄清说，某些形式的人工智能生成内容实际上可以获得版权保…

王浩然
2025年2月4日
000
AI前沿

AI副驾驶：减轻过劳安全运营中心（SOC）的误报与人员疲惫

随着AI技术的飞速发展，安全运营中心（SOC）正经历着一场深刻的变革。最新的AI副驾驶技术不仅显著降低了误报率，还极大地缓解了SOC人员的工作压力，提高了整体运营效率。 ‌一、AI…

王浩然
2025年3月25日
000
AI前沿

欧洲版OpenAI，法国独角兽推多模态大模型Pixtral 12B，源代码已开放下载

智东西9月12日消息，据VentureBeat报道，法国大模型独角兽Mistral AI昨日正式发布Pixtral 12B，这是该公司首个能够同时处理文本和图像的多模态大模型。 P…

点点
2024年9月13日
000
AI前沿

Google DeepMind发布新型AI模型以强化机器人控制能力‌

在人工智能领域，Google DeepMind一直以其前沿的技术和创新的研究引领着行业发展。近日，DeepMind团队再次取得突破，发布了一系列专为机器人控制设计的新型AI模型。这…

王浩然
2025年3月13日
000
AI前沿

企业 SaaS 公司如何在人工智能驱动的世界中蓬勃发展

人工智能继续主导着有关现代知识工作的讨论，融入了无数行业的日常流程。随着企业继续发现人工智能的实用性，人们对它的看法在谨慎乐观和彻底怀疑之间徘徊。在商界，许多人看到了这项技术的实…

点点
2024年9月14日
000
AI前沿

OpenAI的Sora现已登陆欧盟与英国‌

近日，人工智能领域的领头羊OpenAI宣布，其创新产品Sora现已正式在欧盟与英国市场推出。这一举措标志着OpenAI在拓展全球业务版图方面迈出了重要一步。 ‌一、Sora简介‌ …

王浩然
2025年3月1日
000
AI前沿

许多公司不愿透露是否会遵守加州的人工智能培训透明度法

周日，加州州长加文·纽瑟姆签署了一项法案AB-2013，要求开发生成式人工智能系统的公司发布用于训练其系统的数据的高级摘要。除其他事项外，摘要必须涵盖谁拥有数据、数据是如何获得或授…

王浩然
2024年10月7日
000
AI前沿

有没有想过拍广告？这家航空公司将利用人工智能的力量实现这一目标

你可以成为一部浪漫电影的主角，宣传一家航空公司和全球旅行，或者至少你的脸可以成为主角，这要感谢卡塔尔航空的新活动。该航空公司推出了一项新的人工智能冒险活动，将短片和深度伪造工具结合…

王浩然
2024年9月9日
000
AI前沿

人工智能公司将实现工业车辆自动化

一个新名字——SteerAI——通过中东出现在自动驾驶汽车领域。该项目由阿联酋阿布扎比政府下属先进技术研究委员会的商业化部门 VentureOne 推出。据 VentureOn…

王浩然
2024年11月9日
000
AI前沿

微软和 a16z 搁置分歧，联手反对人工智能监管

两个深度交织的科技生态系统中的两大力量——大型既有企业和初创公司——停止数钱，联合恳求政府停止甚至放弃考虑可能影响他们的经济利益（或者用他们喜欢的话说，创新）的监管。 “我们两家公…

王浩然
2024年11月2日
000
AI前沿

OpenAI 筹集数十亿美元资金，并承诺与“美国及其盟国政府”合作

OpenAI 周三在网上发布的一份声明称，该公司已筹集 66 亿美元，估值达到 1570 亿美元。据《华尔街日报》报道，此轮融资由 Thrive Capital 领投，投资额为 1…

王浩然
2024年10月3日
000
AI前沿

振动编码在企业级AI工具中的应用：全面覆盖开发全生命周期

随着人工智能技术的飞速发展，振动编码（Vibe Coding）现象正逐渐从一个小众概念演变为主流开发方法。开发者们日益依赖AI来生成和辅助编写代码，GitHub Copilot等工…

王浩然
1天前
000
AI前沿

利用数字化劳动力提升人类能力

SS&C Blue Prism 英国、爱尔兰和比荷卢三国销售副总裁 Mark Lockett 讨论了该公司的最新发展、客户挑战以及如何充分利用智能自动化工具。您能否向我们…

点点
2024年9月26日
000
AI前沿

新的 NFL 投注应用程序利用人工智能来平衡比赛

随着劳动节的过去和职业橄榄球赛季的正式开始，体育分析公司 Field Vision Sports 推出了所谓的首款移动应用程序，提供基于人工智能和机器学习的 NFL 比赛预测，让投…

点点
2024年9月11日
000
AI前沿

Sakana AI 的 CycleQD 优于多技能语言模型的传统微调方法

Sakana AI的研究人员开发了一种资源高效的框架，可以创建数百种专门用于不同任务的语言模型。该技术称为CycleQD，它使用进化算法来结合不同模型的技能，而无需昂贵且缓慢的训练…

王浩然
2024年12月7日
000