构建实时机器学习管道的挑战
实时机器学习正在兴起,随着公司开始将实时引入他们的机器学习管道,他们发现自己不得不权衡性能、成本和基础设施复杂性之间的权衡,并确定哪些是优先考虑的。
在这篇文章中,我们将看看在从批处理到实时过渡的每个阶段发生的一些最典型的权衡,以及为什么这些优势和劣势是必须牢记的。
实时机器学习的典型路径
批量处理在数据不经常变化的情况下是最有用的,这在现在是很罕见的。它曾经被认为是采用机器学习的一种较低成本的方法,但许多使用批处理的公司开始意识到,对于那些不是每天都访问他们网站的用户的相关数据,在计算和存储上浪费了很多钱,所以预先计算的特征(他们预先花钱计算,现在又花钱存储)没有被查阅。这些公司正朝着实施实时机器学习的方向发展,尽管每一个计算单位对于实时来说都是比较昂贵的,因为这往往可以通过加快迭代周期,让他们只使用和存储相关的数据来节省资金。这种潜在的成本降低只会使公司在使用更多的最新数据时看到的模型性能优势更加突出,并能更快地对市场或用户偏好的变化做出反应。
如果你想进一步了解实时机器学习的优点,请查看我们的博文,内容是7个理由说明为什么实时机器学习会在这里继续存在.
第一阶段:所有都是批处理

全批处理的实时机器管道是构建实时机器管道最常见的方法。在这种情况下,特征从一个批处理源计算,如Snowflake或S3,模型预测为每个用户/场景提前计算,存储,并在需要时提供。在某些情况下,模型预测甚至不在线提供(例如通过Redis);在这些情况下,一个批处理作业读取所有的模型分数并执行一个动作或计算(例如,如果模型预测用户是否会流失,一个管道读取这些分数并决定向他们发送电子邮件,所有这些都是离线发生的)。
批量机器学习管道的最大优势是,它相对容易设置,不需要实时数据。然而,缺点是批处理管道可能是缓慢和低效的,使它们不太适合大规模或时间敏感的数据。
挑战
所有批处理机器学习管道的最大挑战之一是陈旧的预测和开发一个修复它们的过程,或任何其他问题。因为数据被存储在一个静态的地方,你需要在训练前获取和处理数据。这个过程变得很乏味,因为任何时候你需要进行更新,无论多小的更新,你都需要再次经历获取、处理和训练的整个过程。在大多数情况下,这意味着许多采用批处理的公司并没有频繁地训练他们的模型,使其真正有用(因为他们不是最新的)。
另一个原因是,批处理程序需要巨大的数据集来保存所有的数据,因为你是为所有的用户(甚至只是所有的活跃用户)计算,而且没有任何个性化。这在一些特定的、简单的情况下可以起作用,但在我们目前的快节奏、高动态的世界中,对大多数情况并没有用。此外,在改变你的数据方面缺乏灵活性和速度,这对任何新用户的个性化都是一种挑战;第一印象对创造重复用户和减少用户流失是非常重要的,所以这种无法对新用户进行适当的个性化的情况会对企业产生重大影响。
上述的挑战也导致了实验速度的明显延迟。对于大多数公司经历的前三个阶段,模型的训练是有间隔的,但相对而言,批处理的间隔要长得多,因为你是在用静态的数据和模型工作,所以每次你给它提供新的数据时,要确定你的模型是在改进还是在漂移,这是非常耗时的。
阶段2:用实时模型批量计算的特征

当公司开始将实时性整合到他们的机器学习管道中时,他们通常开始继续使用批量特征,但让模型实时使用批量计算的特征;模型实时提供服务,但计算的特征是在一个键值存储中。通过这种实现方式,你可以得到熟悉的静态数据的轻松和简单,但开始看到更多最新的模型和预测的一些准确性和性能优势。
挑战
随着特征被批量计算,你仍然必须确保你没有使用陈旧的特征,并且需要间隔训练模型,但这些间隔可以比所有批处理过程更短,因为你的反馈回路更短。既然如此,你现在必须注意你的模型服务,因为这是唯一的服务部分,所以它必须是可靠的,并有良好的服务水平协议。
如果不增加工作,你也不能完全获得实时的好处,因为你的功能仍然是静态的;即使你的模型是实时提供的,也需要大量的工作才能使用应用上下文。由于有许多移动的部件,你的模型是实时的,数据验证和监控需要到位,以帮助捕捉数据质量问题和模型漂移,以免它开始影响业务指标。这意味着需要将日志记录到位,工程师需要随时待命。
由于你的机器学习管道的任何元素都是批量计算的,你也无法解决现代网站和应用程序的一些最重要的用例。例如,在社交网站、新闻应用程序和大多数试图抓住和保持用户注意力的平台上,人们期待个性化的内容和馈送(甚至是下意识的),而批量计算的功能根本不允许有足够快的迭代来提供这种用户体验。欺诈检测对于大多数商业用例来说也是必须的,但这需要几乎立即识别并对不良行为者采取行动,而这在批量计算的功能中也是不可行的。
第三阶段:实时模型和特征,间隔模型训练

特征是实时的,而模型是实时的,并在间隔时间内进行训练。事实上,模型在使用实时更新的特征时,消除了之前阶段的大部分呆板问题。这个实现是你真正开始能够挖掘像欺诈检测这样的用例的地方,在那里你需要能够即时检测并对偏离模型预测的行为或趋势采取行动。
挑战
随着你的系统的更多部分成为实时的,更多的移动部件被引入,这增加的复杂性使你的管道更难维护。如果你从头开始构建东西,保持一个良好的SLA可能是困难的,负责不同元素的团队必须学会协调他们的努力。负责编写机器学习管道和管理功能的数据工程师需要与负责将模型投入生产的机器学习工程师协调,这些模型需要由数据科学家进行培训,所有这些人都需要同步进行;起初,这种协调需求会降低团队速度。
监测在这个阶段变得更加重要,因为你的数据变化得更快。模型最终还是会退化的,所以重要的是你要有坚实的漂移检测机制,并且在检测到漂移时有能力训练新模型。
数据更快速的变化也意味着你需要注意训练数据与服务时间的数据之间的偏差;你用来训练模型的特征与你进行预测时使用的特征看起来会略有不同。你可以使用记录和等待的方法,但这可能会使你更难试验新的特征,因为这很耗时,而且会降低你的速度。一个更准确的方法是使用时间点回填,但这很快会变得复杂。
然而,实时特征计算的另一个问题是处理坏的或失序的数据。当使用实时特征时,需要采取一些方法来处理可能不按时间顺序出现的数据,这些因素包括用户的设备在连接不畅时缓冲它发回给你的数据;在预测行为和建立让用户感到直观的工具时,用户行为的顺序往往和行为本身一样重要,而当工具感到直观时,用户会继续使用(和推荐)它们。如果你的数据被破坏,在实时特征上训练的模型也会变得不准确;这可能是一些坏的数据点的结果,或者像一个特征所使用的单位的变化没有被正确地传达给机器学习工程师。为了解决这个问题,最理想的做法是对进入系统的每个数据点进行数据正确性检查。
随着更多方面的实时性,最后一个大的挑战是,预测什么模型在实践中表现最好变得更加困难;一个新训练的模型可能在纸上看起来很好,但在生产中可能表现很差。这就是金丝雀模型发挥作用的地方;当部署一个新的模型时,你可以在最初将它应用于一小部分请求,以确保它以你期望的方式运作。然而,这也增加了你系统的复杂性。
第四阶段:实时特征和模型,在线模型训练

到目前为止,最昂贵、最复杂、性能最强的方法是完全实时的机器学习管道;模型实时运行,特征实时运行,模型在线训练,所以它在不断学习。由于完全实时系统所需的时间、金钱和资源是如此广泛,这种方法不常被利用,即使是FAANG类型的公司,但我们在此强调它,因为这种类型的实时实施的能力也是不可思议的。
完全实时系统最常被用于广告预测等用例,该模型预测用户参与广告的可能性;当广告是你的商业模式时,每一分钱都很重要,完全实时的机器学习管道可以确保资源被有效分配。
挑战
在线模型训练严重依赖你的模型的 "快照 "来进行检查和平衡,以及对损坏的数据作出反应的能力(基本上是你的模型的版本系统)。模型快照只要有几个坏的训练数据点就很容易变坏,导致模型行为不稳定,所以这是周期的另一个部分,你需要采用出色的监控,以及随叫随到的设置,以便快速捕捉和恢复坏的快照,并知道要恢复到哪个快照。
此外,在这种类型的系统中,前一阶段提到的许多缺点都被放大了,因为事情的发展速度成倍增加。团队必须更有效率和沟通;需要为数据质量、漂移和训练偏差增加更多更好的检查点;模型实验变得更加棘手;有更多因素需要担心确保低延迟。对于大多数公司来说,维护这种类型的系统的成本超过了它所提供的好处;如果你甚至需要质疑你是否需要在线模型训练,你可能不需要。
最后的想法
在这篇文章中,我们回顾了不同实时机器学习管道的好处和缺点。虽然任何方法似乎都有不少缺点,但最重要的是要知道这些缺点是什么,这样你就可以在它们发生之前做好准备并减轻它们,而不是在你盲目进入时争先恐后地玩打地鼠游戏。缓解这些挑战是你可以决定在内部进行的,但也有许多工具可以帮助解决每种方法所涉及的复杂问题的子集,甚至还有一些,如 芬尼爾等,可以解决大部分(如果不是全部)问题。
虽然你的用例的理想方法将取决于你的模型所依赖的数据变化的速度,但许多公司正朝着在他们的ML管道中实施更多的实时方面发展,因为这种策略带来了性能上的好处。在第三方工具的帮助下,实现一个高性能的实时机器学习管道是相对容易的,它具有实时功能和实时模型,就像阶段3那样,并获得一个完全端到端的实时机器学习管道的好处,而没有通常伴随着实时机器学习管道的基础设施的复杂性。
原文于2022年11月18日发表于 https://fennel.ai 。
大家都在看
-
颜值即正义 五款长在审美点上的硬核轻武 哪一把是你的梦中情枪? 在冰冷的钢铁世界里,武器从来不仅仅是冰冷的杀戮工具。当精密的机械逻辑碰撞上极致的工业设计,这些由钢铁与火药淬炼而成的造物,便升华成了让无数人痴迷的艺术品。有那么五款名枪,它们跨越了时代的硝烟,仅仅凭借 ... 机械之最03-15
-
机械铸魂 铁路传薪——探访北京交通大学大学生机械博物馆 神州高铁模型与穿隧道变位平台运架一体机电影放映机光学经纬仪世界上独一无二的八音盒志愿者亲手复原的纺车美国早期马鞍形车床穿隧道变位平台运架一体机国产自动号码机、美国产打票机双筒望远镜打字机墙手摇计算机群 ... 机械之最03-15
-
从鸡舍到餐桌,一枚让人放心的鸡蛋要经过几道关? 数据来源:国家蛋鸡产业技术体系清晨,百姓餐桌上,白煮蛋冒着热气;餐饮店后厨内,鸡蛋煎炒烹炸出家常美味;烘焙间里,金黄色蛋液被均匀打发……鸡蛋,中国人餐桌上不可缺少的主角之一。而今,中国人的买蛋习惯正在 ... 机械之最03-15
-
记者“养虾”手记:体验五天,发现目前“龙虾”并不适合普通用户 记者使用AI生成。近期,“养龙虾”热潮来袭,不少用户在“FOMO(害怕错过)”情绪下涌入“养虾”市场,甚至不惜花钱也要部署OpenClaw。“龙虾”究竟好不好用?有多“费钱”?是否会泄露隐私?对此,新京报贝壳财经记 ... 机械之最03-15
-
机械五虎谁能称王?清华、哈工大硬刚985,这些名校分化有多猛 如果你家孩子问机械工程要读哪,很多人估计第一反应就是清北、哈工大吧。但真想好报志愿,光看985还是211没啥用,要深挖里面的门道。现在全国能发机械工程博士学位的高校,加起来一共有93所,更别说还有189所学校搞 ... 机械之最03-15
-
亮黑伯莱塔92X 意式优雅与战术美学的碰撞 黑曜石般的钢铁艺术 在手枪设计的漫长画卷中,伯莱塔(Beretta)始终是那个能够将致命武力与艺术美感缝合得严丝合缝的工匠。如果说经典的92FS是身披迷彩、立下赫赫战功的沙场老兵,那么亮黑版伯莱塔92X则是走进二十一世纪的现代精英。它 ... 机械之最03-15
-
2026广西机械类报考:哪所大学就业最香?最新录取数据曝光! 各位家长、同学好,我是专注广西高考报考的指导老师。这几天咨询群里,机械类专业的热度很高。确实,机械是工业的基石,从汽车制造到智能装备,从工程机械到机器人,机械类人才的就业面非常宽。但问题来了:广西开机 ... 机械之最03-15
-
夜读丨这只被全网心疼的小猕猴,让我们看到拥抱的意义 近日,一只名叫Punch的小猕猴在网络中走红。它刚一出生就被母亲抛弃,不被猴群接纳,玩耍时甚至被同类殴打,公园管理员没办法,只得给它一个毛绒猩猩玩偶作为“母亲”的代替品。Punch无论走到哪,都抱着那只毛绒猩猩 ... 机械之最03-15
-
机械类专业别乱选!12个热门方向全梳理,就业好坏一眼看清 高考填报志愿打算选机械方向的考生和家长,一定要先弄清楚专业差异!很多人以为机械都是一样的,实际上不同方向未来就业、薪资、发展天差地别,有的进大厂拿高薪,有的只能做传统技工。今天把机械类最实用的专业方向 ... 机械之最03-15
-
“龙虾”接管电脑的5分钟里,他的电脑被陌生人连了139次 “保护环境。”当你给AI发送这样一条极度简单、语义模糊的指令后,你期待它给你怎样的回应?解释环保的概念?给出保护环境的建议?慷慨激昂地发表一番绿色地球宣言?如果它没做这些,反而是悄无声息地删掉你一部分文 ... 机械之最03-13
相关文章
- 【史海回眸】泰缅“死亡铁路”,日军暴行铁证
- 第51届日内瓦国际发明展开幕 中国参展规模创新高
- 云深处科技的机器马有何特别之处
- 来时的路(一):第一机械工业部,那个管得最宽的“一机部”
- 独家!探秘创下五大“世界之最”的中国深海“蛟龙”
- 火骨纸魂、跃夜成光,五经富烟花火龙非遗重生全记录
- 世界肾脏日
- 商鞅变法,最狠的改革,把弱秦变成战争机器
- 向新求质 三明工业稳健前行
- P08炮兵型 当优雅鲁格遇上长枪管 它是手枪界的“狙击精英”
- 对比多家裁断机供应商,最终还是选智成!原因很实在
- Nikon FM2:机械之心,永恒之魂
- 经常挖鼻孔,后来都怎么样了?有这种情况的人真的要注意了
- 别再盲目劝退机械!大学生选对这几个方向,越老越吃香薪资节节高
- “封龙”何以变“飞龙”——石家庄五大产业跃升记
- “6G网要来了”热搜第一!研发进入关键期,还要破解哪些难题
- “养龙虾”爆火之后,别把技术幻想当成生产力现实
- 阿基米德:喊“我找到了”古希腊狂人,杠杆和浮力都是他发明的!
- 小变化中的大图景——六位全国人大代表履职中的“微光”与“星河”
- 刀尖角:车刀里的 “隐形强者”,决定刀具寿命的关键密码
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
