美智库分析小数据人工智能的潜力

添加时间：2021-09-17 点击次数：715

导语：2021年9月，美国安全与新兴技术研究中心发布报告《小数据人工智能的巨大潜力》，针对“人工智能依赖于大量数据，数据是重要的战略资源，可用数据的数量被视为人工智能进展的关键指标”这一传统观点，报告指出，这种对数据在人工智能中的作用的理解是不全面的，可能会对政策制定者产生误导。当前许多人工智能系统确实利用了大量数据，但并非所有人工智能系统都需要大量数据作为支撑。对于大数据的过度强调，忽视了小数据人工智能的存在，也低估了小数据人工智能方法的巨大潜力。

一、什么是小数据方法

小数据方法是指不需要大量数据集进行训练的人工智能方法，该方法有助于解决没有标记数据或标记数据很少的情况，减少对从现实世界收集大量数据集的依赖性。小数据方法大致可分为5类：①迁移学习，首先在数据丰富的环境中学习执行任务，然后将所学到的东西“迁移”至数据匮乏的任务中；②数据标记，适用于标记数据有限，但有大量未标记数据的情况，使用自动生成标记或主动学习等方法来理解现有的未标记数据；③人工数据生成，通过创建新的数据点或其他相关技术，力求从少量数据中最大程度地提取信息；④贝叶斯方法，采用机器学习和统计学方法，将有关问题的架构信息纳入解决问题的方法中，专注于对其预测的不确定性产生良好的校准估计；⑤强化学习，计算机系统通过试错来学习如何与环境交互，常用于训练游戏系统、机器人和自动驾驶汽车。

二、小数据方法的意义

1.缩小实体间人工智能能力的差距

大型数据集对于许多人工智能应用的作用日益重要。由于不同实体收集、存储和处理数据的能力各不相同，拥有人工智能能力的大型科技公司可能拉开与其他公司的差距。如果迁移学习、自动标记、贝叶斯方法等方法能够在数据较少的情况下应用人工智能，那么小型实体在数据方面的准入门槛将会降低，就可以缩小大型和小型实体之间人工智能能力的差距。

2.减少收集个人数据

某些小数据方法可减少收集个人数据的行为，比如人工数据生成或使用模拟训练算法的方法，这两种方法不依赖于个人数据，或者具有合成数据以删除敏感的个人可识别属性的能力。尽管这并不意味着所有的隐私问题都能得到解决，但通过减少收集大量真实世界数据的需求，可以降低人们对大规模收集、使用或披露消费者个人数据的担忧。

3.促进数据匮乏领域的发展

人工智能近期的许多进步都是通过可用数据的爆炸式增长而实现的。然而，对于许多重要问题，可以输入人工智能系统的数据可能很少或根本不存在。小数据方法能够提供一种基于规则的方式来处理数据的缺乏。可以利用标记和未标记数据，从相关问题迁移知识；也可以利用现有的少量数据点来创建更多的数据点，凭借有关问题领域的先验知识，或者通过构建模拟或编码结构假设来冒险进入新的领域。

4.规避“脏数据”

小数据方法可以使受“脏数据”困扰的机构受益。例如，美国防部就存在大量“脏数据”，需要大量时间和人力进行数据清理、标记和组织工作。小数据方法中的数据标记法可以通过自动生成标签，降低处理大量未标记数据的难度。迁移学习、贝叶斯方法或人工数据方法可以缩减需要清理的数据量，显著减少“脏数据”的规模。

三、结论

1.人工智能不等于大数据，也不是大型、预先标记的数据集的代名词。大数据在过去十年的人工智能热潮中发挥了作用，但如果把大规模数据收集和标记作为发展人工智能的先决条件，容易将政策制定者引入歧途。

2.对于迁移学习的研究发展迅速，这种方法在未来可能会得到更广泛的应用。

3.美国和中国在小数据方法领域的竞争非常激烈。美国在强化学习和贝叶斯方法上有很大优势，但中国在迁移学习方面处于领先地位。

4.相对于整个人工智能领域的投资规模，美国政府对小数据方法的资助比例较小。迁移学习作为一个迅速崛起的领域，有希望获得美国政府提供的更多资金。

上一页：城投转型：片区开发与乡村振兴

下一页：“十四五”投资路线图明确 102项重大工程蓄势待发