Ryan Kolln是Appen的首席执行官兼董事总经理。Ryan 拥有 20 多年的全球技术和电信经验,对 Appen 的业务和 AI 行业有着深刻的理解。
他的职业生涯始于一名工程师,专注于澳大利亚、亚洲和北美的移动网络数据工程。在获得纽约大学 MBA 学位后,Ryan 于 2011 年加入波士顿咨询集团 (BCG) 担任战略顾问。在 BCG 任职期间,他专注于技术和电信领域,并在各种增长和运营主题方面获得了深厚的战略专业知识。
他于 2018 年加入 Appen AI,担任企业发展副总裁,领导了 Figure Eight 和 Quadrant 等战略收购,并支持中国和联邦部门的成立。在被任命为首席执行官之前,他曾担任首席运营官,负责监督全球运营和战略。
您在技术和电信领域拥有 20 多年的经验,您的职业道路如何影响着您带领 Appen 在快速发展的 AI 领域前进的方法?
我的职业生涯始于一名电信工程师,我的职责是构建和优化网络,涉及大量数据、分析以及寻找创新解决方案以优化网络性能和客户体验。
在纽约大学完成 MBA 学位后,我担任了技术战略和并购领域的领导职务,专注于更大的战略问题,例如新兴趋势、投资机会和商业模式。这些背景让我对新兴技术的技术和商业方面都有了深刻的理解。
在 Appen,我们致力于人工智能和数据的交叉领域,我的经验让我能够领导公司并驾驭快速发展的人工智能领域的复杂问题,经历语音识别、NLP、推荐系统以及现在的生成式人工智能等重大发展。随着人工智能继续改变全球行业,这一战略愿景至关重要。
您自 2018 年起就加入 Appen,推动Figure Eight 和 Quadrant 等重大收购。这些战略举措如何使 Appen 成为 AI 数据服务的领导者?您认为公司的下一个重大机遇是什么?
收购 Figure Eight 和 Quadrant 是我们拓展 AI 数据能力的关键,尤其是在数据注释和地理位置智能等领域。Figure Eight 的数据注释平台尤其具有影响力。该平台具有高度可定制性,我们已将其用于许多不同领域的工作。最近,我们一直在利用该平台运行我们的大多数生成 AI 数据流。
除了收购之外,大约 5 年前,我们在中国成立了一家名为 Appen China 的公司。我们现在是中国最大的人工智能数据公司,收入几乎是我们最接近的竞争对手的两倍。
展望未来,Appen 的重点是支持生成式 AI 的开发和采用。模型构建者和希望将生成式 AI 应用于其产品和运营的公司都拥有巨大的增长机会。我们觉得我们正处于最大的 AI 浪潮的开始阶段。
数据质量在 AI 模型开发中起着至关重要的作用。您能否分享一下 Appen 如何确保其数据集的准确性、多样性和相关性,尤其是在对高质量 LLM 训练数据的需求不断增长的情况下?
Appen 的优势在于我们能够持续、大规模地创建高质量数据。我们与客户密切合作,了解他们的 AI 模型目标,并通过结合自动化工具和人工反馈的多层方法开发满足他们需求的高质量数据。我们在全球 200 多个国家/地区拥有超过 100 万名员工,这使我们能够挑选出一批合格且多元化的贡献者。通过严格的质量控制和反馈循环,我们确保数据准确、一致且相关,并可用于有效提高 AI 模型的性能。这使得 AI 系统能够在现实环境中有效运行,也可用于提高稳健性和减少偏差,尤其是对于 LLM 而言。
合成数据生成越来越受欢迎,Appen 对 Mindtech 的投资凸显了您对这一领域的兴趣。您能否谈谈使用合成数据或网络抓取数据与众包数据训练 AI 模型的优缺点,以及您如何看待合成数据对 Appen 广为人知的众包数据的补充?
高质量数据至关重要,但生成数据成本高昂且耗时,因此合成数据越来越受关注。它非常适合传统 AI/ML 任务中的结构化数据,尤其是在医疗保健和金融等隐私法规严格的行业,因为它避免使用个人信息。
然而,合成数据通常缺乏真实数据所具有的深度和细微差别,尤其是对于需要多样性和深厚专业知识的复杂生成式人工智能任务而言。它还可能延续原始数据中的错误或偏见。通常用于法学硕士的网页抓取数据也存在自身的问题,包括低质量的内容、偏见和错误信息,需要仔细管理。
Appen 擅长的众包数据仍然是“基本事实”。人类的专业知识对于生成提高 AI 模型准确性和确保与人类价值观保持一致所需的多样化、复杂数据至关重要。
我们认为合成数据是对人工标注数据的补充。虽然合成数据可以加速部分流程,但人工标注数据可确保模型反映现实世界的多样性。两者相结合,提供了一种平衡的方法来为 AI 创建高质量的训练数据。
《欧盟人工智能法案》和其他全球法规正在塑造人工智能发展的道德标准。您认为这些法规将如何影响 Appen 的运营以及更广泛的人工智能行业的发展?
《欧盟人工智能法案》和类似的全球法规可能会影响 Appen 的运营,为人工智能模型的开发和性能设定新的道德标准。我们可能会看到处理数据、确保模型公平性和解决道德问题的方式发生变化。这可能会导致更严格的流程,并可能调整我们对模型训练和验证的方法。
总体而言,这些法规可能会推动行业提高道德标准,增加合规成本,并可能减缓某些方面的创新。然而,它们也将推动更大的问责制和透明度,最终可能带来更负责任和更可持续的人工智能发展。
随着人们对人工智能偏见的担忧日益加剧,Appen 如何确保用于训练人工智能模型的数据集符合道德规范且没有偏见,特别是在自然语言处理和计算机视觉等敏感领域?
我们积极致力于通过促进项目中的多样性和包容性来减少偏见。令人鼓舞的是,我们的许多客户都专注于在数据收集和模型评估任务中捕捉广泛的人口统计数据。拥有遍布大多数国家的全球人群使我们能够从广泛的视角和经验中获取数据,这在自然语言处理和计算机视觉等敏感领域尤为重要。
自 2019 年起,我们将最佳实践正式纳入《众包道德准则》,表明我们致力于多元化、公平和众包福祉。这包括我们承诺公平薪酬、确保众包的声音被听到以及严格保护隐私。通过坚持这些原则,我们旨在提供高质量、合乎道德的数据,以支持负责任的 AI 开发。
随着人工智能越来越多地融入汽车、广告、AR/VR等行业,Appen 如何定位自己以满足这些行业对专业训练数据日益增长的需求?
在过去的 27 年里,我们为不同行业和用例提供了专门的训练数据,并且随着客户需求的发展而不断发展。
例如,在汽车领域,我们与领先的汽车公司和车内解决方案提供商合作,打造车载语音系统。现在,我们正在新的领域为客户提供帮助,例如收集驾驶员的视频数据,通过监控驾驶员注意力分散来提高安全性。
在广告领域,我们帮助一家领先的全球广告平台通过一项为期多年的大型全球计划(包含 700 多万次评估)提高了广告的质量和准确性,从而提高了与用户相关的广告质量。现在,随着许多平台采用生成式 AI 解决方案,我们的众包团队不仅评估广告的相关性,还帮助评估生成的广告的质量。
我们能够通过强大的注释平台实现所有这些目标,该平台可以定制以支持复杂的工作流程和各种数据模式,包括文本、音频、图像、视频和多模式注释。但最终,我们能够顺应行业变化的能力取决于我们在 AI 开发数据方面的深厚专业知识以及与客户的牢固合作伙伴关系。
Appen 一直是为各种 AI 应用提供高质量数据的领导者。展望未来,随着生成式 AI 和 LLM 不断发展并影响全球市场,您认为 Appen 的角色将如何演变?
生成式人工智能和法学硕士正在改变行业,我们将继续在提供高质量数据以支持这些进步方面发挥关键作用。在全球市场,我们在 200 个国家/地区和 500 多种语言中采购的能力将变得更加有价值,我们在这方面有着丰富的经验,因为我们帮助微软等公司推出了针对 110 多种语言的机器翻译模型。
随着 LLM 应用程序的部署不断增长,我们看到与人类最终用户保持一致的需求日益增长,包括本地化功能,以确保在全球各个市场中解决语言和文化差异。我们致力于帮助公司开发既高效又负责任的 AI 系统,确保用于训练这些模型的数据多样化、相关且符合道德规范。
Appen 因支持一些全球最先进的 LLM 而闻名。Appen 在数据注释和收集方面专注于哪些创新来提高这些模型的性能?
我们不断创新数据注释和收集流程,以提高 LLM 的性能。其中一个重点领域是通过先进的 AI 辅助工具提高数据注释的效率和准确性,这有助于在保持高质量标准的同时简化和自动化部分流程。
我们可以识别需要进一步人工输入的数据点,确保注释工作能够针对最有影响力的地方。我们的平台集成了 Model Mate 等功能,可用于帮助加速数据生成和提高数据质量。我们还专注于贡献者管理的最佳实践,随着任务复杂性的增加,这一点非常重要。
能够了解贡献者层面的表现并提供反馈,以不断提高我们人工生成数据的质量。这些创新使我们能够提供所需的高质量、大规模数据,以支持和微调世界领先的 LLM。
当您担任首席执行官的新角色时,未来几年您对 Appen 的首要任务是什么?您计划如何在竞争激烈的人工智能领域推动公司的发展?
随着我转任首席执行官一职,我的战略重点是确保 Appen 在竞争激烈的 AI 领域保持领先地位:
- 支持生成式 AI 模型的开发:在过去 18 个月中,生成式 AI 已成为我们服务产品的关键组成部分,2024 年 6 月,集团收入的 28% 来自生成式 AI 相关项目,而 1 月份这一比例为 8%。我们看到生成式 AI 市场的巨大潜力,根据行业预测,到 2032 年,该市场规模预计将达到 1.3 万亿美元。
- 支持生成式 AI 模型的采用:随着企业将生成式 AI 解决方案用于其用例,我们看到新细分市场的增长。尽管生成式 AI 项目实现部署的比例很低,但我们预计 24/25 财年将是一个过渡期,实验将转向生产,并推动对定制高质量和专业数据的需求。
- 优化和自动化我们准备数据的方式:利用人工智能进行质量保证并自动化数据准备过程的某些步骤。这将使我们能够提高数据质量,同时提高运营效率,提高毛利率。
- 改进众包工作者的体验:我们全新的 CrowdGen 平台使我们能够根据客户需求快速灵活地扩展项目,利用人工智能进行自动筛选和项目匹配。这还将改善我们的贡献者体验和个性化支持。Appen 是数据来源透明度、多样性和公平性的早期采用者,我们将继续遵守我们的众包道德准则。
这些优先事项将使 Appen 在不断发展的人工智能领域保持持续增长和创新。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/appen-shou-xi-zhi-xing-guan-ryan-kolln-fang-tan-xi-lie