快攻人工智能:Databricks 如何帮助步行者队将机器学习成本削减 12,000X% 同时加快洞察速度

快攻人工智能:Databricks 如何帮助步行者队将机器学习成本削减 12,000X% 同时加快洞察速度

对于篮球运动来说,数据可能就是一切——但对于步行者体育和娱乐公司(PS&E)来说,有关球迷的数据同样有价值。 

然而,尽管印第安纳波利斯步行者队(NBA)、印第安纳狂热队(WNBA) 和印第安纳疯蚁队(NBA G 联赛)的母公司向每年投入 10 万美元的机器学习 (ML) 平台投入了巨额资金,以围绕定价和门票需求等因素生成预测模型,但获得的洞察却不够快。 

数据工程和战略经理 Jared Chavez 着手改变这种状况,并在一年半前转向 Salesforce 上的 Databricks。 

现在?他的团队正在执行相同范围的预测项目,并采用精心的计算配置来获得对粉丝行为的关键见解——每年只需 8 美元。这是一个令人震惊、看似不可想象的减少,查韦斯主要将其归功于他的团队将 ML 计算量减少到接近无穷小的能力。  

他说:“我们非常擅长优化计算,并确定我们可以将极限推低到何种程度,以使我们的模型能够运行。这正是 Databricks 闻名的原因。” 

PS&E 将运营支出削减 98%

除拥有三支篮球队外,总部位于印第安纳波利斯的 PS&E 还经营着 Pacers Gaming 电子竞技业务,主办疯狂三月比赛,并通过Gainbridge Fieldhouse竞技场举办超过 300 天的繁忙活动业务(音乐会、喜剧表演、牛仔竞技表演、其他体育赛事)。此外,该公司上个月刚刚宣布计划建造一座耗资 7800 万美元的印第安纳狂热运动表演中心,该中心将通过天桥与竞技场和停车场相连(预计于 2027 年开放)。 

所有这些都带来了令人难以置信的数据量和数据蔓延。从数据基础设施的角度来看,查韦斯指出,直到两年前,该组织还托管了两个完全独立的仓库,它们都建立在Microsoft Azure Synapse Analytics上。整个企业的不同团队都使用自己的分析形式,工具和技能也千差万别。 

他解释说,尽管 Azure Synapse 在连接外部平台方面做得很好,但对于 PS&E 这样规模的组织来说,成本过高。此外,将公司的 ML 平台与Microsoft Azure Data Studio集成会导致碎片化。 

为了解决这些问题,查韦斯于 2023 年 8 月转而使用Databricks AutoML和Databricks 机器学习工作区。最初的重点是围绕门票定价和比赛需求配置、训练和部署模型。 

Pacers-diagram

查韦斯指出,技术和非技术用户都立即发现这些平台很有用,而且它们迅速加快了机器学习进程(并且成本大幅下降)。 

“它极大地缩短了我的营销团队的响应时间,因为他们不必知道如何编码,”查韦斯说。对他们来说,一切都是按钮,所有数据都以统一记录的形式返回到 Databricks。”

此外,他的团队将公司的 60 多个系统组织到Salesforce Data Cloud中。现在,他报告说,他们的存储数据增加了 440 倍,生产数据源增加了 8 倍。 

PS&E 目前的运营成本仅为其之前年度运营成本的 2% 以下。“我们每年仅在运营方面就节省了数十万美元,”查韦斯说。“我们将这笔钱重新投入到客户数据丰富中。我们不仅为我的团队,而且为整个公司的分析部门重新投资,以获得更好的工具。” 

持续改进,深入了解数据

他的团队是如何将计算量降低到如此惊人的水平的?查韦斯解释说,Databricks 不断完善集群配置,增强模式的连接选项,并将模型输出集成回 PS&E 的数据表中。强大的ML 引擎正在“不断丰富、完善、合并和预测”PS&E 在每个系统和收入流中的客户记录。 

这使得每次迭代都能得到更准确的预测——事实上,AutoML 模型有时可以直接投入生产,无需他的团队进行任何进一步的调整,查韦斯说。 

“说实话,这不仅要知道输入数据的大小,还要知道训练大概需要多长时间,”查韦斯说。他补充道:“这是你能运行的最小集群规模,它可能只是一个内存优化的集群,但这只是对 Apache Spark 相当了解,并且知道我们能以哪种方式以相当优化的方式存储和读取数据。”

谁最有可能购买季票?

查韦斯的团队使用数据、人工智能和机器学习的一种方式是利用倾向评分来为季票套餐评分。正如他所说:“我们卖出了数量惊人的季票。”

目标是确定哪些客户特征会影响他们选择坐在哪里。查韦斯解释说,他的团队正在对他们存档的地址进行地理定位,以建立人口统计、收入水平和旅行距离之间的关联。他们还分析了用户在零售、食品和饮料、移动应用参与度以及他们可能在 PS&E 校园参加的其他活动中的购买历史。 

此外,他们还从 Stubhub、Seat Geek 和 Ticketmaster 以外的其他供应商那里获取数据,以评估价格点并确定库存的流动情况。查韦斯解释说,这可以与他们所了解的有关特定客户的所有信息结合起来,以确定他们要坐在哪里。 

有了这些数据,他们就可以将特定客户从 201 区升级到 101 区中心球场。“现在我们不仅可以转售他在上层看台的座位,还可以为他在赛季中期购买的相同座位销售另一个较小的套餐,使用相同的特点为其他人提供服务,”查韦斯说。 

更好的数据改善赞助

同样,数据可以用来加强赞助,这对任何体育特许经营来说都至关重要。 

“当然,他们希望与那些与他们有重叠的组织保持一致,”查韦斯说。“那么我们能更好地丰富吗?我们能更好地预测吗?我们能做自定义细分吗?”

理想情况下,目标是建立一个界面,任何用户都可以提出这样的问题:“给我列出 25 岁到 29 岁之间、拥有可支配收入的步行者队球迷群体。”甚至可以进一步说:“寻找那些年收入超过 10 万美元并对豪华汽车感兴趣的人。”然后,界面可以带回与赞助商数据重叠的百分比。 

查韦斯说:“当我们的合作团队试图达成这些交易时,他们可以按需提取信息,而不必依赖分析团队为他们完成这项工作。” 

为了进一步实现这一目标,他的团队正在寻求建立一个数据洁净室,即一个允许共享敏感数据的安全环境。这对赞助商以及与其他球队和 NCAA(总部位于印第安纳波利斯)的合作尤其有帮助。 

“目前我们面临的问题就是响应时间,无论是面向客户还是内部响应,”查韦斯说。“我们能否大幅减少使用人工智能来切分信息和对其进行分类所需的知识?”

数据收集和人工智能可了解交通模式,改善标牌

查韦斯团队的另一个重点领域是检查人们在 PS&E 校园(包括一个三层竞技场和一个室外广场)内任何特定时间的位置。查韦斯解释说,通过 WiFi 接入点,整个网络基础设施都具备数据捕获功能。 

“当你走进竞技场时,即使你没有登录,你也会关闭所有网站,因为你的手机正在检查 WiFi,”他说。“我可以看到你去哪里。我不知道你是谁,但我可以看到你去哪里。” 

这最终可以帮助引导人们在场馆内走动——比如,如果有人想买椒盐脆饼并正在寻找小卖部——并帮助他的团队确定在哪里放置食品和商品亭。 

查韦斯解释说,位置数据同样有助于确定标牌的最佳位置。确定标牌印象数的一个有趣方法是将视觉梯度放置在与平均扇形高度相当的位置。 

“然后让我们计算一下,考虑到周围有多少人,人们能看清这个视频吗?”查韦斯说,“所以我可以告诉我的赞助商,这个视频的曝光量为 5,000 次,其中 1,200 次曝光量相当不错。” 

同样,当球迷坐在座位上时,他们周围都是标志和数字显示屏。位置数据可以帮助根据他们坐的位置角度确定展示的质量(和数量)。正如查韦斯所说:“如果这则广告在第三节只在屏幕上播放了 10 秒钟,谁会看到它?”

一旦 PS&E 拥有足够的位置数据来帮助解答这类问题,他的团队计划与印第安纳大学的 VR 实验室合作,对整个校园进行建模。“然后我们将拥有一个非常有趣的沙盒,可以在里面跑来跑去,解答过去两年来一直困扰着我的所有这些 3D 空间问题,”查韦斯说。 

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/kuai-gong-ren-gong-zhi-neng-databricks-ru-he-bang-zhu-bu

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年2月12日
Next 2025年2月12日

相关推荐

发表回复

Please Login to Comment