【导读】2016年,“机器学习”还只是被Gartner 视为一个“流行词”,到如今,它已发展成为几乎所有 IT 人士都在思考、探索或执行的一件事。毫无疑问,基于数据的分析和预测已经是当今迅速增长的最新、最热门的技术领域之一。但对于那些正在进入机器学习领域的参与者来说,理想和现实之间仍无法平衡;正如每个不断发展的新兴事业一样,基础设施之水既能载舟,亦能覆舟。
Gartner已经确定了三种主要的最佳实践,基础设施和运营领导者在帮助所在组织准备应对机器学习 (ML) 和人工智能 (AI) 带来的挑战时,可以考虑采用这三种最佳实践:
1. 采用模块化访问,实现高效的数据管道——根据 Gartner 的研究,“最终用户表示,在典型项目中,数据准备和管理占去了将近 75% 到 85% 的机器学习管道。”建议在整个组织内执行更有效的数据清理、转换和整合。
2. 制定高效的机器学习模型交付策略——该评论指出:“I&O 领导者可以通过访问模型、功能和预测存储库来显著加快其机器学习管道的速度。”这有助于缩小实验级和生产级系统之间的资源差距。
3. 提供可扩展的计算基础设施——Gartner 指出:“机器学习管道中的第二大时间密集型部分通常是模型工程设计阶段。”同样,建议采取的措施是针对需要聚集的核心参与者,将数据科学家、业务专家和软件工程师的最佳技能结合起来,实现协作并推动“跨团队的机器学习理念”。
如果具体情形难度相当,通常需要权衡生产时间和准确性以及提供组织范围的机器学习策略,而且往往要横跨包括公共、私有、数据库、大数据生态系统、传统数据存储等在内的多个孤立的数据源进行。
推荐阅读: