用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM

王浩然 • 2024年8月31日上午9:00 • AI前沿 • 107 views

德国研究机构LAION创建了用于训练Stable Diffusion和其他生成式 AI 模型的数据，该机构发布了一个新数据集，声称该数据集“已彻底清除已知的疑似儿童性虐待材料 (CSAM) 链接”。

新数据集 Re-LAION-5B 实际上是旧数据集 LAION-5B 的重新发布，但根据非营利组织互联网观察基金会、人权观察、加拿大儿童保护中心和现已解散的斯坦福互联网观察站的建议实施了“修复”。它有两个版本可供下载，分别是 Re-LAION-5B Research 和 Re-LAION-5B Research-Safe（还删除了额外的 NSFW 内容），LAION 表示，这两个版本都过滤了数千个已知（和“可能”）CSAM 链接。

LAION 在一篇博客文章中写道：“LAION 从一开始就致力于从其数据集中删除非法内容，并从一开始就采取了适当的措施来实现这一目标。” “LAION 严格遵守非法内容一旦被发现就会尽快删除的原则。”

需要注意的是，LAION 的数据集不包含图像，也从未包含过图像。相反，它们是 LAION 整理的图像链接和图像替代文本的索引，所有这些都来自另一个数据集——Common Crawl，其中包含抓取的网站和网页。

Re-LAION-5B 的发布是在 2023 年 12 月斯坦福互联网观察站进行调查之后发布的，调查发现 LAION-5B（特别是名为 LAION-5B 400M 的子集）包含至少 1,679 个从社交媒体帖子和流行成人网站上抓取的非法图片链接。根据报告，400M 还包含“各种不当内容”的链接，包括色情图片、种族主义诽谤和有害的社会刻板印象。

尽管该报告的斯坦福大学合著者指出，删除违规内容会很困难，而且 CSAM 的存在不一定会影响在数据集上训练的模型的输出，但 LAION 表示将暂时将 LAION-5B 下线。

斯坦福报告建议，在 LAION-5B 上训练的模型“应弃用并在可行的情况下停止分发”。或许与此相关，AI 初创公司 Runway最近从 AI 托管平台 Hugging Face 上撤下了其 Stable Diffusion 1.5 模型；我们已联系该公司以获取更多信息。（Runway 于 2023 年与 Stable Diffusion 背后的公司 Stability AI 合作，帮助训练原始的 Stable Diffusion 模型。）

新的 Re-LAION-5B 数据集包含约 55 亿个文本图像对，并根据 Apache 2.0 许可发布，LAION 表示第三方可以使用元数据来清理 LAION-5B 的现有副本，方法是删除匹配的非法内容。

LAION 强调其数据集用于研究，而非商业目的。但如果历史可以说明，这不会阻止一些组织。除了 Stability AI，谷歌还曾使用 LAION 数据集来训练其图像生成模型。

LAION 在帖子中继续说道：“在与我们的合作伙伴提供的链接和图像哈希列表匹配后，总共删除了 2,236 个 [指向疑似 CSAM 的] 链接。” “这些链接还包含了 2023 年 12 月斯坦福互联网观测站报告中发现的 1008 个链接……我们强烈敦促所有仍在使用旧 LAION-5B 的研究实验室和组织尽快迁移到 Re-LAION-5B 数据集。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yong-yu-xun-lian-stable-diffusion-de-shu-ju-ji-bei-hou-de

AI Stable Diffusion 互联网观察基金会数据

Like (0)

王浩然作者

0 0

社交网络 Buttflies AI 添加了一项功能，可将你变成 AI 角色

Previous 2024年8月31日上午7:00

金融领域的人工智能：重新定义金融服务的双刃剑

Next 2024年8月31日下午2:00

AI前沿

专家观点：人工智能尚未准备好成为科研合作者‌

随着人工智能技术的飞速发展，关于AI能否胜任科研合作者角色的讨论日益激烈。然而，近期一项调查结果显示，多数专家对此持保留态度，他们认为人工智能目前尚未准备好成为真正的科研合作者。 …

王浩然
2025年3月6日
000
AI前沿

Passionfroot 是一个面向以商业为中心的内容创作者寻求品牌合作的市场，反之亦然

随着创作者经济的快速增长，品牌合作仍然是创作者赚钱的主要方式。其他服务，如带有联盟链接的 Link-in-Bio 应用或类似 Patreon 的订阅，成为增加创作者收入的次要方式…

王浩然
2024年10月23日
000
AI前沿

ElevenLabs 聘请了阅读应用 Omnivore 背后的团队

生成式人工智能公司ElevenLabs聘请了开源稍后阅读应用程序Omnivore背后的团队。 Omnivore 联合创始人杰克逊·哈珀 (Jackson Harper) 和吴洪波 …

王浩然
2024年10月30日
000
AI前沿

Koyeb无服务器云平台：助力开发者快速部署Tenstorrent AI加速器‌

近日，Koyeb无服务器云平台宣布了一项重大更新，允许开发者在该平台上轻松部署Tenstorrent AI加速器。这一更新为开发者提供了更为灵活和高效的AI计算资源，助力他们加速A…

王浩然
2025年2月27日
000
AI前沿

微软的 Windows Agent Arena：教 AI 助手操作你的 PC

微软推出了一项突破性的基准测试，名为Windows Agent Arena (WAA)，用于在真实的 Windows 操作系统环境中测试人工智能代理。这个新平台旨在加速开发能够在各…

王浩然
2024年9月15日
000
AI前沿

Axis Security 如何使用 Xpander.AI 的代理平台来增强客户支持票务管理

自去年年底以来，“Agentic AI”或 AI 代理一直是企业界热议的话题。但这个想法——使用大型语言模型 (LLM) 来支持离散操作和集中工作流——在实际部署到生产中时究竟是什…

王浩然
2025年1月22日
000
AI前沿

Halliday获2000万美元A轮融资，致力于开发可在区块链上安全运行的AI代理

融资概况‌ Halliday公司近日宣布成功获得2000万美元的A轮融资，本轮融资由Andreessen Horowitz的加密部门（a16z crypto）领投，使得公司的总融资…

王浩然
2025年3月20日
000
AI前沿

应对副驾驶的安全风险

越来越多的企业正在使用副驾驶和低代码平台，使员工（即使是那些技术专长很少或没有技术专长的员工）能够创建强大的副驾驶和业务应用程序，以及处理大量数据。 Zenity 的一份新报告《2…

点点
2024年9月25日
000
AI前沿

企业 SaaS 公司如何在人工智能驱动的世界中蓬勃发展

人工智能继续主导着有关现代知识工作的讨论，融入了无数行业的日常流程。随着企业继续发现人工智能的实用性，人们对它的看法在谨慎乐观和彻底怀疑之间徘徊。在商界，许多人看到了这项技术的实…

点点
2024年9月14日
000
AI前沿

企业级AI语音模型Jargonic横空出世：aiOla声称其在业务术语识别上超越竞品

近年来，语音识别模型的准确性不断提高，但大多数模型仍是在理想条件下进行训练和测试的，如安静的环境、清晰的音频和通用词汇。然而，对于企业而言，现实世界的音频环境要复杂得多。为了解决这…

王浩然
6天前
000
AI前沿

自动驾驶送货机器人获得 AI 升级；Uber Eats 将于 2025 年部署 2,000 个

Serve Robotics 推出其先进的新型送货机器人

点点
2024年10月22日
000
AI前沿

白皮书消除了人们对人工智能导致失业的担忧

一份新白皮书指出，担心人工智能会导致大量失业是没有根据的。英国人工智能软件公司 Automated Analytics 发布的这份报告发现，其在英国和美国的 5,000 家客户中，…

点点
2024年9月10日
000
AI前沿

地缘政治和人工智能将在 2025 年影响芯片行业 | KPMG

人工智能技术让半导体领导者对2025年更加乐观，但阻力可能来自地缘政治和人才保留问题。这些是美国审计、税务和咨询公司毕马威 ( KPMG)和全球半导体联盟 (GSA) 发布的第 …

王浩然
2024年12月19日
000
AI前沿

Meta 不愿透露是否利用智能眼镜拍摄的照片来训练 AI

Meta 的 AI 驱动雷朋眼镜正面有一个隐蔽的摄像头，不仅会在你要求时拍照，还会在 AI 功能触发某些关键词（例如“看”）时拍照。这意味着这款智能眼镜会收集大量照片，包括有意拍摄…

点点
2024年10月2日
000
AI前沿

Basecamp Research 斥资 6000 万美元打造“生物学 GPT”

就在 OpenAI 和 Anthropic 等公司继续推广使用普通语言向人工智能代理询问问题、撰写提案或绘制图片的想法时，一家名为Basecamp Research 的伦敦初创公司…

王浩然
2024年10月10日
000
AI前沿

无论你喜欢与否，人工智能正在学习如何影响你

当我还是个孩子的时候，我的生活中曾出现过四个人工智能特工。他们的名字分别是 Inky、Blinky、Pinky 和 Clyde，他们竭尽全力追捕我。那是 20 世纪 80 年代…

王浩然
2025年2月18日
000
AI前沿

平衡成本、功耗和性能，实现生成式人工智能的民主化

如今，生成式人工智能还只是早期采用者使用的新事物，但明天，它将成为我们日常生活中不可或缺的一部分。因此，它必须可以在各种消费设备上使用，独立于基于云的处理，并且可供所有人使用，而不…

王浩然
2025年2月6日
000
AI前沿

为什么黄仁勋和马克·贝尼奥夫认为代理型人工智能有“巨大”机遇

Nvidia创始人兼首席执行官黄仁勋表示，展望未来，人工智能代理的机会将是“巨大的”。黄仁勋本周在 Salesforce 的旗舰活动Dreamforce的炉边谈话中表示，目前…

王浩然
2024年9月22日
000
AI前沿

腾讯推出“浑元3D 2.0”，人工智能让3D设计时间从几天缩短到几秒

腾讯推出了“浑元3D 2.0 ”，这是一款人工智能系统，可在几秒钟内将单幅图像或文字描述转化为详细的3D模型。该系统将一个通常需要很长时间的过程（熟练的艺术家可能需要几天或几周的时…

王浩然
2025年1月22日
000
AI前沿

Cerebras宣布六大AI数据中心，每秒处理4000万令牌，或对NVIDIA构成威胁

Cerebras大幅扩展数据中心版图，携手两大企业巨头引领AI推理服务新风尚在人工智能（AI）市场持续蓬勃发展的背景下，Cerebras Systems，这一AI硬件领域的新兴势…

王浩然
2025年3月19日
000

发表回复

Please Login to Comment

用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM

相关推荐

发表回复

Share To :