Eric Landau 是Encord的首席执行官兼联合创始人,Encord 是一个计算机视觉主动学习平台。Eric 曾是全球股票 delta-one 部门的首席量化研究员,将数千个模型投入生产。在加入 Encord 之前,他在 DRW 从事高频交易近十年。他拥有哈佛大学应用物理学硕士学位、电气工程硕士学位和斯坦福大学物理学学士学位。
业余时间里,Eric 喜欢玩 ChatGPT 和大型语言模型以及制作鸡尾酒。
是什么促使您共同创立 Encord,您在粒子物理学和量化金融方面的经验如何影响您解决人工智能“数据问题”的方法?
我在斯坦福线性加速器中心 (SLAC) 工作期间,从事粒子物理学研究,处理大量数据集,从中开始思考机器学习。我使用的软件是由物理学家为物理学家设计的,也就是说,在用户体验方面还有很多不足之处。如果使用更简单的工具,我就能更快地运行分析。
后来,我在 DRW 从事量化金融工作,负责创建数千个部署到生产中的模型。与我在物理学方面的经历类似,我发现高质量的数据对于建立准确的模型至关重要,而管理复杂的大规模数据则很困难。Ulrik 在为计算机视觉可视化大型图像数据集方面也有类似的经历。
当我听说他对 Encord 的最初想法时,我立即同意了,并明白了其重要性。我和 Ulrik 一起看到了一个巨大的机会,即构建一个平台来自动化和简化 AI 数据开发流程,让团队更容易将最佳数据输入模型并构建值得信赖的 AI 系统。
您能否详细阐述一下 Encord 背后的愿景,以及它在潜力和挑战方面与早期的计算或互联网相比有何不同?
Encord 的愿景是成为企业赖以将其数据转化为实用 AI 模型的基础平台。我们处于公司数据和 AI 之间的层级。
在许多方面,人工智能都反映了个人计算和互联网等先前的范式转变,因为它将成为每个个人、企业、国家和行业工作流程不可或缺的一部分。与之前的技术革命不同,之前的技术革命在很大程度上受到摩尔定律(每 10 年复合计算增长 30 倍)的瓶颈,而人工智能的发展受益于同步创新。因此,它的发展速度要快得多。用 NVIDIA 的黄仁勋的话来说:“我们第一次看到了复合指数……我们每十年复合增长一百万倍。不是一百倍,不是一千倍,而是一百万倍。”毫不夸张地说,我们正在见证人类历史上发展最快的技术。
这里的潜力是巨大的:通过自动化和扩展 AI 高质量数据的管理,我们正在解决阻碍更广泛采用 AI 的瓶颈。这些挑战让人想起了以前技术时代的早期障碍:孤岛、缺乏最佳实践、非技术用户的限制以及缺乏明确定义的抽象。
Encord Index 被定位为管理和整理 AI 数据的关键工具。它与目前可用的其他数据管理平台有何不同?
Encord Index 在某些方面脱颖而出:
索引可扩展:允许用户管理数十亿个数据点,而不是数百万个数据点。其他工具在处理非结构化数据时面临可扩展性问题,并且在整合组织内所有相关数据方面受到限制。
Index 非常灵活:可直接与私有数据存储和云存储提供商(例如 AWS、GCP 和 Azure)集成。与其他仅限于单个云提供商或内部存储系统的工具不同,Index 不受数据所在位置的限制。它允许您使用适当的治理和访问控制来管理来自多个来源的数据,从而使他们能够开发安全且合规的 AI 应用程序。
Index 是多模态的:支持多模态 AI,以图像、视频、音频、文本、文档等形式管理数据。Index 并不像当今的许多 LLM 工具那样局限于单一形式的数据。人类认知是多模态的,我们相信多模态 AI 将成为下一波 AI 进步的核心,它将取代聊天机器人和 LLM。
Encord Index 通过哪些方式增强了为 AI 模型选择正确数据的过程,以及这对模型性能有何影响?
Encord Index 通过自动管理大型数据集来增强数据选择,帮助团队识别并仅保留最相关的数据,同时删除不具信息量或有偏见的数据。此过程不仅可以减少数据集的大小,还可以显著提高用于训练 AI 模型的数据质量。我们的客户发现他们的模型性能提高了 20%,同时数据集大小减少了 35%,并节省了数十万美元的计算和人工注释成本。
随着 Meta 的 Segment Anything Model 等尖端技术的快速融合,Encord 如何在快速发展的 AI 领域保持领先地位?
我们特意打造了能够快速适应新技术的平台。我们专注于提供可扩展的软件优先方法,轻松整合 SAM 等先进技术,确保我们的用户始终配备最新工具以保持竞争力。
我们计划通过专注于多模态 AI 保持领先地位。Encord 平台已经可以管理图像、视频和文本等复杂数据类型,因此随着多模态 AI 的更多进步,我们已经做好准备。
公司在管理 AI 数据时面临的最常见挑战是什么?Encord 如何帮助解决这些挑战?
公司面临三大挑战:
- 数据组织和控制不力:当企业准备实施 AI 解决方案时,他们经常会遇到数据孤立、无组织且不适合 AI 的现实。这些数据通常缺乏强有力的治理,限制了它们在 AI 系统中的使用。
- 缺乏人类专家:随着人工智能模型解决的问题越来越复杂,很快就会出现准备和验证数据的人类领域专家短缺的情况。随着公司对人工智能的需求不断增加,扩大人力资源规模既具有挑战性,又成本高昂。
- 不可扩展的工具:高性能 AI 模型在微调、验证、RAG 和其他工作流程所需的数据方面非常耗费数据。上一代工具无法管理当今生产级模型所需的数据量和数据类型。
Encord 通过自动化大规模数据整理过程来解决这些问题,从而轻松地从有问题的数据中识别出有影响的数据,并确保创建有效的训练和验证数据集。它采用软件优先的方法,可以根据数据管理需求的变化轻松扩大或缩小规模。我们的 AI 辅助注释工具使人机交互领域专家能够最大限度地提高工作流程效率。这一过程在金融服务和医疗保健等 AI 培训师成本高昂的行业中尤为重要。我们让管理和理解组织的所有非结构化数据变得容易,从而减少对人工劳动的需求。
Encord 如何解决数据偏见和数据集内代表性不足的区域问题,以确保公平、平衡的人工智能模型?
解决数据偏差是 Encord 的一项重要工作。我们的平台会自动识别和显示数据可能存在偏差的区域,让 AI 团队能够在这些问题影响模型性能之前解决这些问题。我们还确保适当纳入数据集中代表性不足的区域,这有助于开发更公平、更平衡的 AI 模型。通过使用我们的策展工具,团队可以确信他们的模型是在多样化且具有代表性的数据上进行训练的。
Encord 最近获得了 3000 万美元的 B 轮融资。这笔资金将如何加速您的产品路线图和扩张计划?
B 轮融资的 3000 万美元将用于在未来六个月内大幅扩大我们的产品、工程和 AI 研究团队的规模,并加速 Encord Index 和其他新功能的开发。我们还将通过新办事处扩大我们在旧金山的业务,这笔资金将帮助我们扩大业务规模,以支持我们不断增长的客户群。
作为 Y Combinator 旗下最年轻的获得 B 轮融资的 AI 公司,您认为 Encord 的快速成长和成功归功于什么?
我们能够快速成长的原因之一是我们在公司的所有领域都采取了以客户为中心的理念。我们不断与客户沟通,密切倾听他们的问题,并“热情拥抱”他们以找到解决方案。通过高度关注客户需求而不是炒作,我们创建了一个与各个行业顶级 AI 团队产生共鸣的平台。我们的客户对我们取得今天的成就起到了重要作用。我们能够快速扩展并有效管理 AI 数据的复杂性,这使我们成为企业的理想解决方案。
我们的成功也很大程度上归功于我们的队友、合作伙伴和投资者,他们都为 Encord 不懈努力。与世界一流的产品、工程和上市团队合作对我们的成长产生了巨大影响。
鉴于数据在人工智能中的重要性日益增加,您认为未来五年 Encord 等人工智能数据平台的作用将如何发展?
随着人工智能应用的复杂性不断增加,对高效、可扩展的数据管理解决方案的需求只会增加。我相信每个企业最终都会有一个人工智能部门,就像今天的 IT 部门一样。Encord 将是他们管理人工智能所需的大量数据并快速将模型投入生产所需的唯一平台。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/encord-ceo-eric-landau-fang-tan-ai-ru-he-dian-fu-hang-ye