Anais Dotis-Georgiou 是 InfluxData 的开发倡导者,热衷于利用数据分析、人工智能和机器学习让数据变得美丽。她收集数据,进行研究、探索和工程设计,将数据转化为具有功能、价值和美感的东西。当她不在屏幕后面时,你会发现她在户外画画、伸展运动、滑板或追足球。
InfluxData是一家开发InfluxDB的公司,InfluxDB 是一个开源时间序列数据库,全球有超过一百万开发人员在使用。他们的使命是帮助开发人员利用时间序列数据构建智能实时系统。
您能否分享一下从研究助理到成为 InfluxData 首席开发倡导者的历程?您的数据分析和机器学习背景如何影响了您目前的角色?
我获得了化学工程学士学位,主修生物医学工程,后来在实验室从事疫苗开发和产前自闭症检测。从那时起,我开始编写液体处理机器人的程序,并帮助数据科学家了解异常检测的参数,这让我对编程产生了更大的兴趣。
后来,我成为 Oracle 的销售开发代表,意识到自己确实需要专注于编程。我参加了德克萨斯大学数据分析方面的编程训练营,并成功进入科技领域,特别是开发者关系领域。
我拥有技术背景,这有助于塑造我现在的角色。尽管我没有开发经验,但我可以理解并同情那些拥有工程背景和思维但同样在努力学习软件的人。因此,当我创建内容或技术教程时,我能够帮助新用户克服技术挑战,同时将对话置于与他们相关且有趣的环境中。
您的工作似乎将创造力与技术专长融为一体。您如何将让数据变得“美丽”的热情融入到 InfluxData 的日常工作中?
最近,我更关注数据工程而不是数据分析。虽然我不再像以前那样关注数据分析,但我仍然非常喜欢数学——我认为数学很美,并会抓住机会解释算法背后的数学。
InfluxDB 一直是时间序列数据领域的基石。您认为开源社区如何影响 InfluxDB 的发展和演变?
InfluxData 非常致力于开放数据架构和 Apache 生态系统。去年,我们发布了 InfluxDB 3.0,这是 InfluxDB 的新核心,用 Rust 编写,使用 Apache Flight、DataFusion、Arrow 和 Parquet(我们称之为 FDAP 堆栈)构建。随着 InfluxData 的工程师继续为这些上游项目做出贡献,社区不断发展壮大,Apache Arrow 项目集变得更易于使用,具有更多特性和功能以及更广泛的互操作性。
在时间序列数据和人工智能领域,您最近看到过哪些最令人兴奋的开源项目或贡献?
很高兴看到 LLM 被重新利用或应用于时间序列进行零样本预测。Autolab 有一系列开放的时间序列语言模型,TimeGPT 是另一个很好的例子。
此外,包括Bytewax和Mage.ai在内的各种开源流处理库允许用户利用和合并 Hugging Face 的模型,这非常令人兴奋。
InfluxData 如何确保其开源计划与开发者社区保持相关性并使其受益,尤其是在人工智能和机器学习快速发展的今天?
InfluxData 计划专注于为 AI 特定公司也利用的开源项目做出贡献,从而保持相关性和益处。例如,每次 InfluxDB 为 Apache Arrow、Parquet 或 DataFusion 做出贡献时,它都会使利用它的其他所有 AI 技术和公司受益,包括 Apache Spark、DataBricks、Rapids.ai、Snowflake、BigQuery、HuggingFace 等。
时间序列语言模型在预测分析中变得越来越重要。您能详细说明这些模型如何改变时间序列预测和异常检测吗?
时间序列 LM 的表现优于线性和统计模型,同时还提供零样本预测。这意味着您在使用模型之前无需在数据上训练模型。也无需调整统计模型,这需要时间序列统计方面的深厚专业知识。
然而,与自然语言处理不同,时间序列领域缺乏可公开访问的大规模数据集。大多数现有的时间序列预训练模型都是在小样本上训练的,这些样本仅包含几千甚至几百个样本。尽管这些基准数据集对时间序列社区的进步起到了重要作用,但它们的样本量有限且缺乏通用性,对预训练深度学习模型构成了挑战。
话虽如此,但我认为这就是开源时间序列 LM 难以获得的原因。Google 的 TimesFM 和 IBM 的 Tiny Time Mixers 已在包含数千亿个数据点的海量数据集上进行了训练。例如,使用 TimesFM,预训练过程是使用 Google Cloud TPU v3-256 完成的,它由 256 个 TPU 核心组成,总共有 2 TB 的内存。预训练过程大约需要 10 天,并产生一个包含 12 亿个参数的模型。然后使用较低的学习率和较少的时期对预训练模型进行微调,以针对特定的下游任务和数据集。
希望这种转变意味着更多的人可以在没有深厚领域知识的情况下做出准确的预测。然而,从财务和环境成本的角度来权衡利用时间序列 LM 等计算成本高昂的模型的利弊需要做大量工作。
这篇Hugging Face 博客文章详细介绍了时间序列预测的另一个很好的例子。
与传统方法相比,使用时间序列 LM 的主要优势是什么,特别是在处理复杂模式和零样本性能方面?
关键优势在于无需在时间序列数据上反复训练模型。这有望消除在线机器学习中监控模型漂移和触发重新训练的问题,理想情况下可消除预测流程的复杂性。
您也无需费力估计多元统计模型的跨系列相关性或关系。估计值增加的额外方差通常会损害最终的预测,并可能导致模型学习虚假相关性。
您能否提供一些实际的例子,说明 Google 的 TimesFM、IBM 的 TinyTimeMixer 和 AutoLab 的 MOMENT 等模型如何在现实场景中实现?
这个问题很难回答;由于这些模型尚处于起步阶段,因此人们对公司如何在现实场景中使用它们知之甚少。
根据您的经验,组织在将时间序列 LM 集成到其现有数据基础设施时通常面临哪些挑战,以及如何克服这些挑战?
时间序列 LM 非常新,我不知道组织面临的具体挑战。不过,我认为在将任何 GenAI 模型整合到数据管道中时,它们会面临同样的挑战。这些挑战包括:
- 数据兼容性和集成问题:时间序列 LM 通常需要特定的数据格式、一致的时间戳和固定的间隔,但现有的数据基础设施可能包括分布在不同系统(例如旧式数据库、云存储或实时流)中的非结构化或不一致的时间序列数据。为了解决这个问题,团队应该实施强大的 ETL(提取、转换、加载)管道来预处理、清理和对齐时间序列数据。
- 模型可扩展性和性能:时间序列 LM,尤其是像 Transformer 这样的深度学习模型,可能占用大量资源,需要大量计算和内存资源来实时或近实时处理大量时间序列数据。这需要团队在 Kubernetes 或云管理 ML 服务等可扩展平台上部署模型,在需要时利用 GPU 加速,并利用 Dask 或 Ray 等分布式处理框架来并行化模型推理。
- 可解释性和可信度:时间序列模型(尤其是复杂的 LM)可以看作是“黑匣子”,这使得预测难以解释。这在金融或医疗保健等受监管的行业中尤其成问题。
- 数据隐私和安全:处理时间序列数据通常涉及敏感信息,例如物联网传感器数据或金融交易数据,因此在集成 LM 时确保数据安全性和合规性至关重要。组织必须确保数据管道和模型符合最佳安全实践,包括加密和访问控制,并在安全、隔离的环境中部署模型。
展望未来,您如何看待时间序列语言模型在预测分析和人工智能领域中的角色演变?有哪些新兴趋势或技术让您特别兴奋?
时间序列语言模型的下一步发展可能是引入一些工具,让用户能够更轻松地部署、访问和使用它们。我使用过的许多时间序列语言模型都需要非常特定的环境,而且缺乏广泛的教程和文档。这些项目还处于早期阶段,但在未来几个月和几年里,它们的发展将会令人兴奋不已。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/anais-dotisgeorgiou-influxdata-kai-fa-chang-dao-zhe-fang