企业規模化落地AI关鍵是MLOps（下）三大原因助MLOps快速兴起

【AI开发也要拥抱DevOps】企业规模化落地AI关键是MLOps（上）

　　促使MLOps快速成长的原因之一，是COVID-19疫情带动大环境快速改变，导致许多部署上线的模型在一夕间不敷使用，凸显了AI维运的挑战

　　虽然从2014年开始，就已经出现MLOps的实践案例，但这套AI协作的概念两年前被重新定义，形成一股AI开发新趋势吹进全球。

　　MLOps兴起主要有三大原因。第一，是企业用过去的开发方法来扩大AI应用规模时，开始面临瓶颈，Line台湾资料工程部资深经理蔡景祥以自身经验为例表示，过去只有自己一人开发AI时，能清楚了解每个程式开发步骤的意涵，但这种开发流程过於客制化，一旦有第二个角色要共同协作，就得相互沟通来理解每个开发步骤，徒增许多沟通成本。

　　勤业众信去年发布的技术趋势报告也提到，企业刚开始开发AI时，容易采取英雄主义作法，靠少数资料科学家包办从头到尾的开发流程，但这些流程高度手动、难被复制或扩张，会增加协作过程中的沟通成本，难以提升开发速度。藉由MLOps的实践，才能让过去自成一格的特制化开发（Exceptionalism），走向快速扩张且更有效率的专业化开发（Professionalism）。

　　第二，则是AI开发面临部署上线的挑战，让更多企业开始采用MLOps。根据国外企管顾问公司Vantage Partners去年调查，在美国，尽管有91.5%的企业都表示正在持续投资AI，却只有14.6%的企业已经将AI部署到生产环境，换句话说，实作了AI却难以部署上线，就是企业应用AI的一大痛点。

　　IDC在2020年发布的全球AI采用度调查也发现，根据受调查的2,000多位IT或相关主管回覆，仍有约有28%的专案因缺乏专家、生产数据与整合的开发环境，最终以失败收尾。IDC因此鼓吹，企业必须拥抱MLOps，才能更大规模的实现AI。

　　勤业众信风险管理谘询副总经理廖子毅更以身为资料科学家的开发经验点出模型部署的难处。他解释，虽然在AI开发的实验阶段，资料科学家可以在数周内快速训练出良好准确率的模型，但是，一旦要落地生产环境，就需要根据现实资料进一步调校模型，还要将模型打包成预测服务，手动开发的过程可能要花费数月甚至一年以上。因此，企业得建立起持续交付、持续部署的作业流程，才能加速落地AI。

　　第三个促使MLOps在一年内快速成长的原因，则是受到疫情带动大环境快速改变，导致许多部署上线的模型在一夕间不敷使用，凸显了AI维运的挑战。勤业众信内部观察，疫情期间的「新常态」，导致许多供应链需求预测模型，已经无法再仰赖过去的数据和假设，需要滚动蒐集企业与用户资料，必要时更需重新训练模型，才能维持预测服务的准确率。

　　业界也开始感受到MLOps市场升温，一家MLOps软体商DataRobot台湾总经理蔡宜真透露，近一年来，企业对MLOps的询问度提升，除了疫情驱动企业加速采用AI，连带的提升对MLOps的关注，更因消费者行为的大幅改变，导致模型表现快速偏移，来询问的企业正因这个契机重新检视模型维运的流程，开始意识到MLOps的重要性。

　　更多AI厂商加入战局，要瓜分2025年40亿美元市场大饼

　　勤业众信制作了一张全球MLOps版图，整理了三大类别的MLOps厂商名单，包括全球六大AI与MLOps服务供应商、从ML平台跨足MLOps解决方案的供应商、以及仅提供MLOps解决方案的业者。（图片来源／勤业众信）

　　MLOps概念兴起後，市场上越来越多AI服务供应商投入这个市场，带动了MLOps的声量。比如公有云大厂如微软、Google以及AWS，本来就提供完整的AI开发服务，微软更在2019年的Build大会上，率先宣布了Azure ML服务中的MLOps功能，Google以及AWS随後跟进，就是让开发者能透过平台工具快速建立ML工作流，更着力於AI全生命周期的管理与监控，来加速AI产品化。

　　勤业众信内部制作了一张全球MLOps版图，除了名列三家公有云业者，更将IBM、SAS与HPE，划入AI与MLOps大型服务供应商的行列。

　　MLOps版图更显示，在公有云推出服务之前，市面上也已经有些ML平台服务供应商，提供企业从开发到维运端的平台服务，让企业能快速导入来开发AI应用，比如Databricks、DataRobot、Dataiku、Iguazio、C3.ai、H2O.ai等厂商；後来MLOps兴起，这些厂商更进一步聚焦ML部署与维运端的工具，奠基在原本的ML平台的基础上提供MLOps服务。除此之外，市场上也出现了单纯提供MLOps解决方案的新创企业，比如Dotscience、Algorithmia、Datmo等。

　　勤业众信风险管理谘询副总经理许梅君提供一份内部估计，MLOps市场预计在2025年达到40亿美元，复合年增长率为50%，将成企业扩大应用AI的又一大关键市场。

　　除了导入相关工具与平台，许梅君也提醒，企业需建立一套管理机制，让AI在合规的前提下快速落地，比如资料治理的规范、资料及专案的权限管理、资安与AI风险的管理，也需透过相关规则的建立，避免AI做出违背常理的判断或有偏见的决策，且当AI用於个人化决策的场景，更要建立可解释性AI机制，以及人机协作进行决策的原则或方法。

　　「导入工具或平台来解决局部的问题，能够快速看见AI开发的成效，但光是这样不能解决企业面临的所有问题，还要建立起管理机制，带动组织或文化的改变。」许梅君说。

　　不只讲究ML模型自动化，AI维运也是MLOps关键

　　「过去，资料科学家部署完模型後，就认为工作已经告一段落，没有模型维运的概念，」DataRobot资料科学家蓝秀仁解释，以前只讲Model Management，聚焦开发流程中的版本管理。直到近几年，模型上线後表现产生偏移而失效，才让更多人认真的看待模型维运的重要性，在MLOps中，更重视透过监控并迭代更新模型，来维持预测服务的准确率。

　　MLOps泛指从AI开发到维运各阶段的协作，若聚焦在ML部署与维运阶段，涵盖了从模型快速部署、上线、监控到重新训练等机制。

　　这个阶段不只要让不同程式语言、架构开发的ML模型，能够快速部署到生产环境，整合到系统或App来提供预测服务。预测服务上线後，也需透过监控机制来检视模型表现，来了解部署在本地端、云端的每个ML模型，每日新进的输入资料是否漂移、模型的准确率是否下降、预测服务是否健康，更要能长期监控模型表现的变化趋势，来更全面的评估是否有重新训练、迭代更新的需求。

　　蓝秀仁也建议，企业应在维运监控阶段，纳入一般常识检查的判断机制，像是，让上线後的ML模型预测结果，不会违背常理或超出现实，比如若AI预测出年龄超过120岁、日薪超过千万，或是自驾车辨识道路的信心值不够高，就会透过一套机制来阻止决策执行。

　　另外，为了避免模型做出偏误决策而不自知，企业也应设计偏误资料的监测机制，在模型输出不公正预测结果时，找出隐含偏见的训练资料，再交由开发人员将偏误资料去除，重新进行模型开发、部署更新的流程。

　　如何选择MLOps工具？

　　勤业众信提供了一家AI解决方案供应商Ambiata所制作的MLOps工具比较表，可做为企业评选MLOps商用与开源工具之用。这个比较表将MLOps工具分为四个类别，分别是资料与Pipeline版本控管、模型实验版本控管、超参数调校、模型部署与监控。勤业众信提醒，企业得先清楚了解哪一个环节有需求，例如待解决的开发痛点，再来导入相应功能的工具。

　　由於功能相近的MLOps软体很多，企业也可以进一步根据自身常用的程式言语与函式库，比如企业开发AI时，使用Python与R来开发，常用如Tensorflow、PyTorch、Keras、Scikit-learn等函式库，来选择可支援开发的MLOps工具导入。

　　在挑选工具时，也能参考GitHub上的评分星级、贡献者或员工数量，列为挑选工具的一大考量，前者可作为该工具受欢迎程度的参考，後者则可以作为该工具能否长期支持AI开发的指标。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业