提示构建有效的AI生态系统

科技 2021-10-13 08:51:26
导读 大家好,我是本栏目的编辑郝帅,现在我给大家讲解一下上面的问题。在业务用例和垂直行业中,工程师和领导者不断讨论人工智能可以带来的价值

大家好,我是本栏目的编辑郝帅,现在我给大家讲解一下上面的问题。在业务用例和垂直行业中,工程师和领导者不断讨论人工智能可以带来的价值——通常,机会似乎是无穷无尽的。它可以预测你的兴趣,你认识的人或者你的下一份工作。

然而,我们往往忽略了大规模实现AI供电系统必须采取的步骤。部署人工智能在人才、计算资源和时间上代价高昂,要充分释放人工智能承诺的创新浪潮,开发者必须得到适当的授权和配备。事实上,成功的AI实现所需的许多关键要素与算法的细节关系不大,更多的是与它们的工具和流程有关。

其中一些工具和流程围绕着标准化最常用的工作流。这可以采取简单的形式,如列出常见功能的电子表格,也可以像完整的人工智能开发平台一样复杂。当我们在LinkedIn上扩展AI工作时,我们逐渐建立了后者,并创建了我们的“生产机器学习”(“Pro-ML”)程序,以提高开发人员的工作效率。

以下是我们通过这项工作积累的一些要点和技巧,供任何规模的组织参考。

清理数据,智能洞察。

部署人工智能的先决条件是彻底了解您的数据。AI模型的性能与其训练数据有着内在的联系,所以知道你需要使用干净的数据是非常重要的。然后,在选择用于培训的数据集时,与业务合作伙伴协作以了解最终的业务目标是有帮助的。比如想通过news Feed“增加参与度”,是以文章和帖子的点击率来衡量,还是以帖子的“赞”或评论来衡量?通过联合确定支持明确业务目标的最佳数据,您将设计一个更有效的模型。

选择训练数据时要考虑的另一个因素是如何标记它。数据是否有足够的上下文可以直接输入到模型中,或者是否需要注释?至于后者,非常重要的是创建一个“代码簿”或“操作手册”,为数据的分类设定标准。我曾经和一个专家团队合作,寻求手工标记数据集。当我们评估成品时,我们意识到它们之间的符合率小于0.2。这意味着专家注释者完全不同意,并且没有理由期望在这些数据上训练的模型会令人满意地运行。如果专家们不能就如何标记数据达成一致,那么期望像CrowdFlower(现在的图8)这样的服务的注释者有效地标记数据是不现实的。

在LinkedIn不同的产品线中,不同的团队正在使用人工智能来解决不同的问题(优化feed、确定招聘人员的合适性以及为您的下一个职业行动建议课程,仅举几例)。每个团队使用不同的管道来生成其机器学习模型所需的功能,因为每个用例都是不同的。然而,在这些团队中,我们一再看到类似的功能,并决定必须简化流程。

我们创建了功能市场框架,通过允许团队利用现有的功能和知识来帮助解决这个问题。Frame充当团队共享、查找和管理他们自己的机器学习模型的公共存储库。它的关键创新是从名称和语义中抽象出一个特性是如何被锚定的。这允许所有团队从相同的标准化功能模板开始,然后根据特定管道或环境的需求进一步定制它。当团队处理不同类型的项目时,市场可以防止重复工作,节省时间和资源。

积极维护模型。

模型会随着时间退化;它是机器学习生命周期中不可避免的一部分。我们通过主动的模型维护方法在LinkedIn上克服了这个问题。从一开始,当我们构建模型时,我们会以一种我们知道会让再培训变得更容易的方式来做。我们创建和测试的模型不会被认为是一个失败的实验,而是一个生产质量、代码评审的工件。这样,当我们重新训练模型时,我们就有了一个坚实的定义,可以使训练更加容易。

我们还参与“定期再培训”,以便在重新培训模型时实施固定的时间表。这有助于消除建模团队的一些认知负担,并确保在模型完全停止工作之前发现任何模型缺陷。我们还投资了医疗保健的绩效监控工具。虽然任何程度的监控都比没有监控好,但一个好的目标是自动监控,以便在某些指标超过预设阈值时发出警报。

实现AI部署可能只需要一些元素——GPU、模型、数据等。-但是在大规模组织中成功实现AI需要强大的支持工具包来支持开发人员。通过为开发人员提供围绕人工智能工作的最佳实践和工具,我们正在扩展以最佳方式应用人工智能的能力。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢

最新文章