新闻动态
吴恩达:未来十年,人工智能将向以数据为中心转变
浏览次数:135 发布时间:2022-05-13 10:17:36
吴恩达在人工智能领域可谓声名显赫。2000 年底,他与斯坦福大学的学生一起开创了使用图形处理单元(GPU)训练深度学习模型的先河,并在 2011 年共同创立了谷歌大脑,然后在百度担任了三年的首席科学家,帮助这家科技巨头创立了人工智能小组。因此,很多人都相信他所说的,人工智能将迎来下一个重大转变。本文是他某次接受 IEEE Spectrum 独家采访的内容整理。目前,他的主要精力都放在其公司 Landing AI 上。该公司构建了一个名为 LandingLens 的平台,帮助制造商利用计算机视觉改善视觉检测。他还成为了他所谓的以数据为中心的人工智能运动的布道者,他说这可以为人工智能领域的大问题提供“小数据”解决方案,涉及模型效率、准确性和偏见。本文主要内容包括:
IEEE Spectrum:您说用 50 张图片训练一个模型的意思是对一个现有的、在非常大的数据集上训练的模型进行微调,还是说一个全新的模型,只是它被设计成只从小数据集学习?吴恩达:让我描述一下 Landing AI 的作用。在帮助制造商实现视觉检测时,我们经常使用我们自己的 RetinaNet。它是一个预训练的模型。话虽如此,预训练只是整个拼图的一小部分。更大的难题是提供工具,使制造商能够挑选合适的图片集 [用于调优],并用同样的方式标记它们。我们看到,有一个非常实际的问题,横跨视觉、NLP 和语音,即使是人类标注者也没法一致地给出适当的标签。对于大数据应用,常见的反应是:如果数据嘈杂,我们就获取大量的数据,然后由算法来均化处理。但是,如果你能开发一些工具来标记数据不一致的地方,并给出一个非常有针对性的方法来改善数据的一致性,那么这将是构建一个高性能的系统更有效的方法。收集更多的数据往往是有帮助的,但如果你什么时候都设法收集更多的数据,那可能是一项非常昂贵的活动。例如,如果你有 1 万张图片,其中 30 张属于一个类别,而这 30 张图片的标签不一致,我们所做的其中一件事就是构建工具,帮助你发现不一致的数据子集。那样,你就可以非常迅速地重新标注这些图片,提升图片一致性,进而提升性能。IEEE Spectrum:这种对高质量数据的关注是否能帮助解决数据集偏见,如果能在训练前更多地挑选数据?吴恩达:帮助非常大。已经有许多研究人员指出,数据偏见是导致系统偏见的众多因素之一。人们在数据设计方面已经付出了许多努力。在 NeurIPS 研讨会上,Olga Russakovsky 就这个问题做了一个非常好的演讲。我也非常喜欢 NeurIPS 大会上 Mary Gray 的演讲,她提到,以数据为中心的人工智能只是解决方案的一部分,但不是全部解决方案。像 Datasheets for Datasets 这样的新工具似乎也是拼图的重要组成部分。以数据为中心的人工智能为我们提供的其中一个强大的工具是设计数据子集的能力。想象一下,训练一个机器学习系统,发现它在大部分数据集上的表现都还可以,但只是对数据的一个子集有偏见。如果你为了提高在那个数据子集上的性能,试图改变整个神经网络的架构,这相当困难。但是,如果你能对数据的一个子集进行设计,你就能以更有针对性的方式解决这个问题。IEEE Spectrum:准确地说,您所说的数据设计是指什么?吴恩达:在人工智能领域,数据清理很重要,但数据清理的方式往往需要大量的手动工作。在计算机视觉中,有人可能通过 Jupyter 笔记本将图片可视化,也许会发现问题,也许会修复它。但对于那些让我们可以拥有一个非常大的数据集的工具,那些可以快速有效地定位存在标签噪声的数据子集的工具,我感到非常兴奋。或者是快速将你的注意力吸引到 100 个类中的某一类,从中收集更多的数据会让你受益。收集更多的数据往往是有帮助的,但是如果你什么时候都设法收集更多的数据,那可能是一项非常昂贵的活动。例如,我曾经指出,当背景中有汽车噪音时,语音识别系统的表现很差。了解了这一点,我就可以在有汽车噪音时收集更多的数据,而不是什么时候都设法收集更多的数据,那样成本又高又耗时。IEEE Spectrum:使用合成数据怎么样,通常这是一个好的解决方案吗?吴恩达:我认为,合成数据是以数据为中心的人工智能工具箱中的一个重要工具。在 NeurIPS 研讨会上,Anima Anandkumar 做了一个关于合成数据的精彩演讲。我认为,合成数据的重要用途不仅仅是作为一个预处理步骤来增加学习算法的数据集。我希望看到更多的工具,让开发者可以把合成数据生成作为机器学习迭代开发闭环的一部分。IEEE Spectrum:您是说合成数据可以让我们在更多的数据集上试验模型吗?吴恩达:不是这样。举个例子。比方说,你试图检测智能手机外壳的缺陷。智能手机上有许多不同类型的缺陷。那可能是划痕、凹痕、坑痕、材料变色或其他类型的瑕疵。如果你训练了模型,然后通过误差分析发现它总体上表现很好,但在坑痕上表现很差,那么合成数据生成让你可以更有针对性地解决这个问题。你可以只针对坑痕类别生成更多的数据。在消费类软件互联网中,我们可以训练少数几种机器学习模型来服务 10 亿用户。但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。合成数据生成是一个非常强大的工具,但也有许多简单一些的工具,我经常会先试一下。比如说数据增强,改善标签一致性,或者只是要求工厂收集更多的数据。IEEE Spectrum:为了使这些问题更加具体化,您能通过一个例子来更具体地说明下这些问题吗?当一家公司找到 Landing AI 并说它在视觉检测方面存在问题时,您如何让他们参与进来并努力实现部署?吴恩达:当客户找到我们时,我们通常会就他们在检测方面遇到的问题进行交谈,并查看一些图片,以验证该问题是否可以通过计算机视觉来解决。假如可以,我们会要求他们将数据上传到 LandingLens 平台。我们经常基于以数据为中心的人工智能方法论向他们提供建议,并帮助他们对数据进行标注。Landing AI 的其中一个重要目标是让制造企业可以自己完成机器学习工作。我们的很多工作都是为了确保软件快速且易于使用。我们通过机器学习开发的迭代过程为客户提供建议,比如如何在平台上训练模型,何时以及如何改进数据的标注,从而提高模型的性能。我们会一直提供培训和软件支持,直到他们将训练好的模型部署到工厂的边缘设备上。IEEE Spectrum:你们如何处理不断变化的需求?如果产品发生变化或工厂的照明条件发生变化,模型能跟得上吗?吴恩达:这和制造商有关系。在许多情况下都会有数据漂移。但也有一些制造商,一条生产线运行了 20 年,几乎没有什么变化,所以他们不觉得未来 5 年内会有什么变化。稳定的环境使事情变得相对简单。对于其他制造商,我们提供工具,在发生重大数据漂移问题时进行标记。我发现,赋予制造业客户纠正数据、重新训练和更新模型的能力真的很重要。因为如果有什么变化,而且现在是美国时间凌晨 3 点,我希望他们能够立即调整他们的学习算法,以保证运营。在消费类软件互联网中,我们可以训练少数几个机器学习模型来服务 10 亿用户。但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。这里的挑战是,如果没有 Landing AI ,你如何做到这一点,是雇用 10000 名机器学习专家吗?IEEE Spectrum:所以您是说,为了使其可扩展,您必须赋能客户来做大量的训练及其他工作。吴恩达:是的,完全正确!这是涉及全行业的人工智能问题,不仅仅是在制造业。看看卫生保健领域。每家医院的电子健康记录格式都略微不同。每家医院该如何训练自己定制化的人工智能模型?指望每家医院的 IT 人员发明新的神经网络架构是不现实的。摆脱这种困境的唯一方法是构建工具赋能客户,为他们提供工具来设计数据和表示领域知识,使他们能够构建自己的模型。这就是 Landing AI 希望在计算机视觉领域达成的目标,人工智能领域需要其他团队在其他领域完成类似的目标。IEEE Spectrum:关于您所做的工作或以数据为中心的人工智能运动,您认为还有什么需要人们了解的吗?吴恩达:在过去十年中,人工智能最大的转变是向深度学习转变。我认为,在这个十年里,最大的转变很有可能是向以数据为中心的人工智能转变。随着现如今神经网络架构的成熟,我认为,对于很多实际的应用来说,瓶颈将是我们能否有效地获得我们所需的数据,开发出效果良好的系统。以数据为中心的人工智能运动在整个社区有着巨大的活力和动力。我希望有更多的研究人员和开发人员能够加入进来,为之努力。
- 真正的大模型将走向何方;
- 他未听取的职业建议;
- 定义以数据为中心的人工智能运动;
- 合成数据;
- 为什么 Landing AI 要求客户做这项工作。
IEEE Spectrum:您说用 50 张图片训练一个模型的意思是对一个现有的、在非常大的数据集上训练的模型进行微调,还是说一个全新的模型,只是它被设计成只从小数据集学习?吴恩达:让我描述一下 Landing AI 的作用。在帮助制造商实现视觉检测时,我们经常使用我们自己的 RetinaNet。它是一个预训练的模型。话虽如此,预训练只是整个拼图的一小部分。更大的难题是提供工具,使制造商能够挑选合适的图片集 [用于调优],并用同样的方式标记它们。我们看到,有一个非常实际的问题,横跨视觉、NLP 和语音,即使是人类标注者也没法一致地给出适当的标签。对于大数据应用,常见的反应是:如果数据嘈杂,我们就获取大量的数据,然后由算法来均化处理。但是,如果你能开发一些工具来标记数据不一致的地方,并给出一个非常有针对性的方法来改善数据的一致性,那么这将是构建一个高性能的系统更有效的方法。收集更多的数据往往是有帮助的,但如果你什么时候都设法收集更多的数据,那可能是一项非常昂贵的活动。例如,如果你有 1 万张图片,其中 30 张属于一个类别,而这 30 张图片的标签不一致,我们所做的其中一件事就是构建工具,帮助你发现不一致的数据子集。那样,你就可以非常迅速地重新标注这些图片,提升图片一致性,进而提升性能。IEEE Spectrum:这种对高质量数据的关注是否能帮助解决数据集偏见,如果能在训练前更多地挑选数据?吴恩达:帮助非常大。已经有许多研究人员指出,数据偏见是导致系统偏见的众多因素之一。人们在数据设计方面已经付出了许多努力。在 NeurIPS 研讨会上,Olga Russakovsky 就这个问题做了一个非常好的演讲。我也非常喜欢 NeurIPS 大会上 Mary Gray 的演讲,她提到,以数据为中心的人工智能只是解决方案的一部分,但不是全部解决方案。像 Datasheets for Datasets 这样的新工具似乎也是拼图的重要组成部分。以数据为中心的人工智能为我们提供的其中一个强大的工具是设计数据子集的能力。想象一下,训练一个机器学习系统,发现它在大部分数据集上的表现都还可以,但只是对数据的一个子集有偏见。如果你为了提高在那个数据子集上的性能,试图改变整个神经网络的架构,这相当困难。但是,如果你能对数据的一个子集进行设计,你就能以更有针对性的方式解决这个问题。IEEE Spectrum:准确地说,您所说的数据设计是指什么?吴恩达:在人工智能领域,数据清理很重要,但数据清理的方式往往需要大量的手动工作。在计算机视觉中,有人可能通过 Jupyter 笔记本将图片可视化,也许会发现问题,也许会修复它。但对于那些让我们可以拥有一个非常大的数据集的工具,那些可以快速有效地定位存在标签噪声的数据子集的工具,我感到非常兴奋。或者是快速将你的注意力吸引到 100 个类中的某一类,从中收集更多的数据会让你受益。收集更多的数据往往是有帮助的,但是如果你什么时候都设法收集更多的数据,那可能是一项非常昂贵的活动。例如,我曾经指出,当背景中有汽车噪音时,语音识别系统的表现很差。了解了这一点,我就可以在有汽车噪音时收集更多的数据,而不是什么时候都设法收集更多的数据,那样成本又高又耗时。IEEE Spectrum:使用合成数据怎么样,通常这是一个好的解决方案吗?吴恩达:我认为,合成数据是以数据为中心的人工智能工具箱中的一个重要工具。在 NeurIPS 研讨会上,Anima Anandkumar 做了一个关于合成数据的精彩演讲。我认为,合成数据的重要用途不仅仅是作为一个预处理步骤来增加学习算法的数据集。我希望看到更多的工具,让开发者可以把合成数据生成作为机器学习迭代开发闭环的一部分。IEEE Spectrum:您是说合成数据可以让我们在更多的数据集上试验模型吗?吴恩达:不是这样。举个例子。比方说,你试图检测智能手机外壳的缺陷。智能手机上有许多不同类型的缺陷。那可能是划痕、凹痕、坑痕、材料变色或其他类型的瑕疵。如果你训练了模型,然后通过误差分析发现它总体上表现很好,但在坑痕上表现很差,那么合成数据生成让你可以更有针对性地解决这个问题。你可以只针对坑痕类别生成更多的数据。在消费类软件互联网中,我们可以训练少数几种机器学习模型来服务 10 亿用户。但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。合成数据生成是一个非常强大的工具,但也有许多简单一些的工具,我经常会先试一下。比如说数据增强,改善标签一致性,或者只是要求工厂收集更多的数据。IEEE Spectrum:为了使这些问题更加具体化,您能通过一个例子来更具体地说明下这些问题吗?当一家公司找到 Landing AI 并说它在视觉检测方面存在问题时,您如何让他们参与进来并努力实现部署?吴恩达:当客户找到我们时,我们通常会就他们在检测方面遇到的问题进行交谈,并查看一些图片,以验证该问题是否可以通过计算机视觉来解决。假如可以,我们会要求他们将数据上传到 LandingLens 平台。我们经常基于以数据为中心的人工智能方法论向他们提供建议,并帮助他们对数据进行标注。Landing AI 的其中一个重要目标是让制造企业可以自己完成机器学习工作。我们的很多工作都是为了确保软件快速且易于使用。我们通过机器学习开发的迭代过程为客户提供建议,比如如何在平台上训练模型,何时以及如何改进数据的标注,从而提高模型的性能。我们会一直提供培训和软件支持,直到他们将训练好的模型部署到工厂的边缘设备上。IEEE Spectrum:你们如何处理不断变化的需求?如果产品发生变化或工厂的照明条件发生变化,模型能跟得上吗?吴恩达:这和制造商有关系。在许多情况下都会有数据漂移。但也有一些制造商,一条生产线运行了 20 年,几乎没有什么变化,所以他们不觉得未来 5 年内会有什么变化。稳定的环境使事情变得相对简单。对于其他制造商,我们提供工具,在发生重大数据漂移问题时进行标记。我发现,赋予制造业客户纠正数据、重新训练和更新模型的能力真的很重要。因为如果有什么变化,而且现在是美国时间凌晨 3 点,我希望他们能够立即调整他们的学习算法,以保证运营。在消费类软件互联网中,我们可以训练少数几个机器学习模型来服务 10 亿用户。但在制造业,你可能要为 1 万个制造商构建 1 万个定制化的人工智能模型。这里的挑战是,如果没有 Landing AI ,你如何做到这一点,是雇用 10000 名机器学习专家吗?IEEE Spectrum:所以您是说,为了使其可扩展,您必须赋能客户来做大量的训练及其他工作。吴恩达:是的,完全正确!这是涉及全行业的人工智能问题,不仅仅是在制造业。看看卫生保健领域。每家医院的电子健康记录格式都略微不同。每家医院该如何训练自己定制化的人工智能模型?指望每家医院的 IT 人员发明新的神经网络架构是不现实的。摆脱这种困境的唯一方法是构建工具赋能客户,为他们提供工具来设计数据和表示领域知识,使他们能够构建自己的模型。这就是 Landing AI 希望在计算机视觉领域达成的目标,人工智能领域需要其他团队在其他领域完成类似的目标。IEEE Spectrum:关于您所做的工作或以数据为中心的人工智能运动,您认为还有什么需要人们了解的吗?吴恩达:在过去十年中,人工智能最大的转变是向深度学习转变。我认为,在这个十年里,最大的转变很有可能是向以数据为中心的人工智能转变。随着现如今神经网络架构的成熟,我认为,对于很多实际的应用来说,瓶颈将是我们能否有效地获得我们所需的数据,开发出效果良好的系统。以数据为中心的人工智能运动在整个社区有着巨大的活力和动力。我希望有更多的研究人员和开发人员能够加入进来,为之努力。