MLOps实战：机器学习模型从训练到上线的全流程管理

微信图片_2026-06-04_095738_425.png

去年一个客户，数据科学团队花三个月训练了一个推荐模型，离线测试指标很漂亮，上线后效果却很差。CTR不仅没涨，反而跌了。业务方问：“你们的模型是不是有问题？”

数据科学家很委屈：“离线测试AUC 0.82，没问题啊。”

后来发现，离线训练用的特征分布和线上实时特征分布不一样。训练时用的是用户过去30天的平均点击率，线上用的是当天的实时点击率。两个分布差异很大，模型懵了。

这是ML落地最常见的悲剧：模型训练好了，不知道该怎么上线；上线了，不知道该怎么监控。

今天聊聊MLOps。不是那种“ML很重要”的入门课，而是帮你理清楚：从训练到上线，模型怎么管理、怎么部署、怎么监控、怎么防止效果衰减。

01 实验追踪：别让你的训练变玄学

数据科学团队经常遇到这种情况：三个月前跑出一个好模型，但当时用的数据版本、参数、代码分支都不记得了。想复现，复现不出来。

实验追踪要记录什么：

工具：MLflow、Weights & Biases、Neptune

那家客户后来用MLflow记录每次实验。数据版本用DVC管理。三个月后复现，一模一样。

模型训练用的数据，质量怎么样？有没有空值？分布有没有变？有没有数据泄露？

数据验证检查项：

工具：Great Expectations、TensorFlow Data Validation、Deequ

那家客户的特征漂移问题，如果在训练前跑数据验证，就能发现当天的点击率分布和过去30天不一样。但他们没做，模型上线后才发现。

代码要跑单元测试，模型也要。

模型CI要做的事：

那家客户后来加了模型CI：每次训练完，自动用小批量线上数据跑推理，对比当前生产模型的CTR预测分布。差异过大，阻止上线。

模型部署有几个选项：

部署策略：

那家客户之前直接把pkl文件上传到Flask应用，没有版本管理、没有回滚。后来换成TensorFlow Serving + MLflow Model Registry，版本可追溯，切换一键完成。

模型上线后，效果会衰减。原因：

监控指标：

工具：Evidently、WhyLogs、SageMaker Model Monitor

那家客户后来加了特征漂移监控。当天的点击率特征分布和过去30天差异超过阈值，自动告警，触发模型重新训练。

一个金融风控模型，上线后前3个月效果稳定。第4个月，逾期率开始上升。

监控系统发现：其中一个特征“近30天登录次数”的分布变了。原来用户平均登录10次，现在变成了5次。产品改了登录策略，用户登录频率下降，模型没适应。

数据科学团队用新数据重新训练模型，AUC从0.75恢复到0.82。如果没有监控，可能要等逾期坏账发生才知道模型失效。

风控负责人说：“以前模型上线就结束了，现在才知道，上线才是监控的开始。”

MLOps不是把模型塞进API就完事。

那家客户的CTO后来总结：“数据版本、代码版本、超参数要记牢；上线前要验效果；上线后要防漂移；模型衰减早知道。”

你的模型，从训练到上线，还有多少步没走通？