新闻动态
数字经济核心要素:数据、算法和算力(3万字长文)

浏览次数:396 发布时间:2024-10-28 09:41:47

目录

  1. 第一部分:数字经济概述
  2. 第二部分:数据——数字经济的石油
  3. 第三部分:算法——数字经济的引擎
  4. 第四部分:算力——数字经济的基石
  5. 结语:数字经济的未来展望

第一部分:数字经济概述

1.1 数字经济的定义和内涵

数字经济是以数字化的知识和信息为关键生产要素,以现代信息网络为重要载体,以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动。它涵盖数字产业化和产业数字化两个方面。数字产业化是指信息通信技术产业,包括电子信息制造业、电信业、软件和信息技术服务业、互联网行业等;产业数字化则指传统产业应用数字技术所带来的变革,通过数字技术改造传统产业,提高生产效率和创新能力。从生产 要素看,数字经济既包括以数据为核心的新型生产要素,也包括支撑数字技术的物质要素如芯片、算力平台、通信基站等;从产业形态看,数字经济既包括数字化的新兴产业,也包括应用数字技术的传统产业;从发展阶段看,数字经济正从起步培育期加速向融合发展期演进。可以说,数字经济代表了新一轮科技革命和产业变革的方向,是全球创新热土和经济增长极。

数字经济具有虚拟性、开放性、集成性、创新性等特征。其虚拟性体现为数据要素的非物质属性,以及经济活动在数字空间的广泛展开;开放性体现为产业协作和创新创造的组织边界日趋模糊,呈现出扁平化、生态化的发展态势;集成性体现为不同领域的技术、业务、数据融合渗透,软硬件协同创新不断深化;创新性则体现为数据驱动、智能主导的创新范式变革,数字化重构传统路径和业态。伴随数字经济的发展,数据主权、隐私保护、网络空间安全等也引发广泛关注。各国纷纷将数字经济作为国家战略,抢占发展制高点。我国把数字经济作为构筑国家竞争新优势的重要抓手,加快数字中国建设,激发数字化发展新动能。

1.2 数字经济的发展历程和现状

数字经济伴随信息通信技术的演进而发展。上世纪90年代,以互联网为代表的信息通信技术开始商业化应用,标志着数字经济的起步;21世纪初,以移动互联网、社交网络、电子商务为代表的应用创新不断涌现,推动数字经济进入快速发展期;近年来,以人工智能、物联网、区块链为代表的新一代信息技术加速突破,大数据、云计算等新型基础设施建设提速,数字经济进入深化拓展期。

从全球看,2022年数字经济规模达47.6万亿美元,占全球GDP的45.9%。美国、中国是数字经济的引领者,2022年美国数字经济规模达17.8万亿美元,占GDP比重53.6%;中国数字经济规模达7.1万亿美元,占GDP比重39.8%。欧盟、日本、韩国等发达经济体数字化转型也在提速,数字经济占GDP比重均超35%。印度、东南亚等新兴经济体数字经济增速明显,催生出一批独角兽企业。从数字经济的细分领域看,电子商务已成为全球贸易的重要组成部分,全球跨境电商交易额超8万亿美元;移动支付加速普及,2022年全球移动支付用户超6亿,交易规模超5万亿美元;共享经济蓬勃发展,全球平台市值超2万亿美元,重塑了生产组织和消费模式;数字内容产业快速增长,全球数字音乐、网络视频市场规模分别达400亿、2500亿美元。可以预见,随着数字技术与实体经济加速融合,将进一步催生出新产业、新模式、新业态,成为世界经济增长的澎湃动力。

我国高度重视发展数字经济。党的二十大报告指出,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。"十四五"规划纲要进一步明确,要加快数字化发展,建设数字中国,以数字经济推动高质量发展。近年来,我国数字经济保持高速增长,2022年规模达45.5万亿元,占GDP比重39.8%,数字经济核心产业增加值同比增长9.2%。电子商务、移动支付、共享经济等新业态新模式蓬勃兴起,催生了阿里巴巴、腾讯、字节跳动等一大批具有全球影响力的数字经济领军企业。工业互联网加速发展,突破了一批面向工业场景应用的数字化转型关键技术。"东数西算"工程加速实施,国家枢纽节点和骨干网络进一步完善。同时,数字治理体系建设不断加强,陆续出台数据安全法、个人信息保护法、平台经济反垄断指南等一系列法律法规。数字经济发展的生态环境更加健康,正成为引领我国高质量发展的强劲引擎。

1.3 数字经济对传统经济的影响和变革

数字经济的发展,正在从生产、流通、分配、消费等多个环节重塑传统经济形态,并催生出大量的新产业、新业态、新模式。

生产领域,数字化正在从根本上改变生产方式。传统生产以物理空间为载体,以物质要素投入为基础,呈现出刚性化、线性化特征;数字化生产以信息空间为依托,以数据要素驱动为核心,呈现出柔性化、网络化特征。大数据让需求预测、生产计划、库存管理实现精准化;人工智能让产品设计、质量检测、设备维护实现自动化;区块链让供应协同、质量追溯、产权确权实现透明化。通过数字孪生、远程运维、预测性维护等新模式,以及 CNC机床、工业机器人、增材制造等新工艺,实现制造过程的数字化监测、实时分析、智能控制、动态优化,大幅提升生产效率和资源利用率。

流通领域,数字化正在重构商业模式和市场格局。传统商业以线下场景为主,呈现出地域性、分散性特征;数字化商业以线上平台为主,呈现出泛在性、集约化特征。移动支付打通了线上线下场景,让资金流转更加高效便捷;智能供应链利用算法优化物流配送,让商品流通更加敏捷高效;数字营销利用大数据分析消费特征,实现千人千面的精准触达。电商平台、外卖平台、在线旅游平台、电商直播等新型商业形态大量涌现,数字化成为传统企业转型突围的重要路径。数据驱动、平台赋能的新型商业生态加速构建,重塑了市场资源配置方式。

分配领域,数字化带来了新的分配模式和价值尺度。在数字经济时代,除传统的土地、资本、劳动力等生产要素外,数据成为新的生产要素,参与价值创造和分配。数据要素市场不断发育成熟,贵阳大数据交易所、上海数据交易所等相继成立,开展数据资产确权、定价、交易等服务。数据要素的价值不仅体现为企业的生产资料,也体现为个人的数字资产,数据变现、数据银行等新模式逐步兴起。区块链、智能合约为生产要素精准定价、所有权自动确认、利益分配自动执行提供了技术保障。灵活就业、众包劳动等新型劳动参与形式,重塑了传统的劳动力要素配置。

消费领域,数字化带来了新的消费需求和消费模式。移动互联网时代,餐饮、出行、购物、文娱等服务需求正从线下向线上迁移,催生了大量在线服务消费。共享经济模式下,闲置物品、闲置空间等资源实现按需灵活配置,房屋、汽车、充电桩等共享服务广受欢迎。随着虚拟现实、元宇宙等技术发展,在线教育、电子竞技、数字藏品、虚拟旅游等数字内容消费方兴未艾。大数据、云计算等新型基础设施建设提速,为流量红利向数据红利、内容红利转变提供了有力支撑。内容电商、私域流量、网红经济等新消费业态不断涌现,重塑价值供给机制和消费者权益格局。

数字经济不断向纵深发展,与实体经济日益融合,不仅提高了经济运行质量和效率,也带来了发展方式、治理结构的深刻变革。一方面,数据成为新的生产要素和战略资源,数字资本成为重要生产资料,数据、算法、算力成为驱动创新发展的新引擎,深刻改变了经济增长模式;另一方面,平台经济、共享经济等新经济形态大规模涌现,跨界融合、协同创新、开源开放的组织形态不断深化,传统的产业边界、组织边界日益弥散,治理体系面临全新挑战。展望未来,积极把握数字化、网络化、智能化发展机遇,加快传统产业数字化转型,培育发展新动能,构建现代产业体系,成为推动高质量发展的关键举措。

第二部分:数据——数字经济的石油

2.1 数据的定义、特征和分类

数据是数字经济时代最重要的生产要素之一,被形象地比作"21世纪的石油"。广义的数据泛指一切客观事物的数字化表示,包括文本、图片、音视频、传感器数据等各类信息,能够被计算机识别、存储和处理。狭义的数据特指经过采集、清洗、加工,能用于分析挖掘的信息资源。大数据技术的发展,让海量、多源、异构、时变的数据资源成为推动经济社会发展的新引擎。

数据具有颠覆性的独特属性。一是非竞争性,即数据可以被多次、多方使用而不损耗价值,边际成本几乎为零;二是非排他性,即数据很难排除他人的访问和使用,容易产生"搭便车"行为;三是可复制性,数据可以极低成本地被复制传播,很难控制数据的扩散;四是差异性,不同维度、不同来源的数据价值差异巨大,很难统一定价;五是关联性,单一数据很难产生价值,往往需要与其他数据融合关联才能创造价值。正是由于这些特性,数据要素在确权、定价、交易、监管等方面呈现出与传统要素截然不同的特点。

按照数据的来源可以分为内源数据和外源数据。内源数据主要包括企业内部产生的业务数据、管理数据、财务数据等,外源数据则主要包括通过物联网、互联网采集的用户数据、行为数据、环境数据等,以及从第三方购买的数据资源。从数据形态看,还可分为结构化数据、半结构化数据和非结构化数据。结构化数据一般以二维表形式存在,包括关系型数据库、电子表格等;半结构化数据虽然也有一定结构,但无需遵从固定格式,包括XML、JSON等;非结构化数据则没有预定义的格式,包括文本、图片、音视频等。不同类型的数据在采集、存储、分析、应用中有不同的技术特点。

2.2 大数据时代数据的爆发式增长

进入21世纪,特别是智能手机、物联网设备的广泛普及,让数据呈现出爆发式增长态势。据IDC预测,2020年全球数据总量为47ZB(1ZB=1万亿GB),到2025年将突破163ZB。海量数据的产生,为各行各业提供了前所未有的增长机遇。大数据(Big Data)技术应运而生,其核心是利用分布式存储、分布式计算等技术,对海量、多源、异构数据进行采集、管理和分析,快速挖掘数据价值,指导业务优化决策。大数据通过机器学习、深度学习等人工智能技术,极大提升了对海量非结构化数据的理解和预测能力,让数据价值从统计分析向知识发现、策略优化拓展。

大数据的价值主要体现在三个方面:一是业务洞察,即通过数据分析了解用户特征、优化产品设计、指导精准营销等;二是流程优化,即通过数据分析改进业务流程、提高运营效率,如库存管理、物流配送等;三是风险管控,即通过数据分析识别潜在风险隐患,预防欺诈、违规等行为。大数据的应用已经渗透到工业、农业、交通、金融、医疗、教育等各行各业,成为新一轮产业变革的底层逻辑。

2.3 数据采集、存储、清洗和管理

高质量的数据是大数据应用的前提,涉及数据全生命周期管理。数据采集是数据管理的起点,需要全面采集和获取结构化、非结构化数据。对内,要采集企业各业务系统、各环节产生的数据;对外,要利用爬虫技术采集互联网开放数据,利用传感器、物联网采集实时数据,并且通过数据交易获取第三方数据。采集数据要兼顾广度、深度和准确性,并对采集行为进行必要的合规审查。

数据存储是为数据的管理和应用奠定基础。传统的关系型数据库在海量数据场景下,面临扩展性差、查询分析效率低等问题。大数据时代,分布式存储、NoSQL数据库、数据湖等新型数据存储架构不断涌现。分布式文件系统如HDFS能够提供高吞吐量的数据访问能力;NoSQL数据库摆脱了关系型数据库的约束,支持灵活的数据模型和弱事务特性;数据湖通过对源数据的无序存储,在成本和性能间达成了平衡。混合架构逐渐成为主流,即面向结构化数据采用关系型数据库,面向海量数据采用HDFS等分布式存储,面向半结构化和非结构化数据采用NoSQL数据库。

数据清洗是提高数据质量的重要环节。由于数据来源的多样性,往往存在不一致、重复、缺失、异常等问题,需要通过一系列处理提升数据的准确性、完整性和一致性。常见的数据清洗方法包括异常值检测、重复值处理、缺失值填充,以及数据格式转换、数据脱敏等。数据清洗可以借助Kettle、Informatica等ETL工具实现工作流式处理,将多源异构数据转换为标准化、关联化的数据,为后续分析挖掘打下基础。

数据管理则贯穿采集、存储、处理、应用的始终。元数据管理通过主数据、数据血缘、数据字典等,对数据资产进行统一编目管理;数据质量管理通过DQC工具,对关键数据的准确性、完整性、一致性进行持续监测和改进;主数据管理通过MDM平台,实现关键业务实体数据的统一视图和集中管控;数据安全与隐私保护通过脱敏、加密、访问控制、审计等手段,确保数据全生命周期的安全合规。建立人人都是数据的使用者和贡献者的数据文化,通过可视化、数据服务等赋能业务人员,是数据管理向数据治理升级的重要方向。

2.4 数据挖掘和数据分析方法

数据挖掘和数据分析是发现数据价值的关键手段。数据挖掘强调从海量数据中发现隐含的、事先未知但又有价值的信息,主要涉及分类、聚类、关联、预测等任务。分类旨在根据样本的特征属性,判断其所属类别,如垃圾邮件识别;聚类则将物理或抽象对象划分为多个类的过程,如客户群划分;关联分析用于发现数据项间的关联模式,如购物篮分析;预测则对某一指标的未来进行估计,如销量预测。数据挖掘一般采用决策树、神经网络、支持向量机等机器学习算法,工具有SAS EM、SPSS Clementine等。

数据分析则强调从各类数据中提取有价值的信息,并基于信息形成对行业情况、业务状况、发展趋势的认识和判断。按照分析的逻辑层次,可分为描述分析、诊断分析、预测分析、规范分析四类。描述分析如各类统计报表,用于总结和展现数据特征;诊断分析如根本原因分析,通过探索事物内在联系发现问题根源;预测分析则对未来情况、趋势作出预判,指导当前决策部署;规范分析则给出应该采取的行动方案,优化资源配置。数据分析采用可视化、OLAP等技术,通过Tableau、PowerBI等工具实现。

大数据时代数据挖掘分析还呈现出新的趋势:一是从静态、历史数据向动态、实时数据分析发展,流数据、时间序列数据分析成为热点;二是从单一结构化数据向多源异构数据融合发展,图数据、文本数据、多模态数据分析成为重点;三是从浅层模式发现向深层关联挖掘发展,图神经网络、因果推理、知识图谱成为前沿;四是从中心化数据汇聚向联邦学习、隐私计算发展,在不泄露隐私的前提下开展数据融合分析。数据科学已成为复合交叉的新兴领域,亟需培养专业复合的数据科学家人才。

2.5 数据可视化和数据应用案例

数据可视化是数据分析不可缺少的部分。可视化通过图形化手段,将数据中蕴含的信息、模式和规律直观呈现,帮助人们快速理解数据背后的洞察。可视化需要遵循准确性、清晰性、美观性、创新性等原则,运用色彩、布局、交互等设计元素,提升数据展现的吸引力和感染力。常用的可视化图表包括柱形图、折线图、饼图等统计图表,散点图、雷达图、热力图等对比图表,以及地图、树状图、关系图等复合图表。此外,动态可视化、交互式可视化、沉浸式可视化也是重要发展方向。除通用的BaTable、PowerBI等可视化工具外,越来越多的可视化类库也被开发出来,如D3.js、ECharts、Highcharts等,满足个性化定制需求。

数据分析已成为各行各业提质增效、创新发展的利器,催生出大量应用案例:

(1)零售行业:沃尔玛利用销售数据进行商品关联分析,优化货架陈列,实现精准营销;亚马逊利用用户行为数据进行个性化推荐,提高转化率和客单价。

(2)金融行业:花旗银行通过信用卡交易数据分析客户价值,开展差异化服务;京东金融利用大数据构建银行风控模型,显著提升风险识别能力。

(3)制造行业:通用电气利用设备联网数据进行预测性维护,减少非计划性停机时间;格力电器利用生产数据优化车间调度,提高生产效率和良品率。

(4)交通行业:滴滴利用海量出行数据进行实时调度,缓解打车难;航联科技利用机票销售数据预测客流量,优化机票价格和航线网络。

(5)医疗行业:华大基因利用基因测序数据开展精准医疗,支撑个性化诊疗;平安好医生利用患者病历数据进行辅助诊断,提高诊断效率和准确率。

这些案例展现了数据价值变现的广阔前景。未来,随着5G、物联网的建设,数据爆发将进一步加速,也对数据分析能力提出更高要求。打通数据壁垒,充分利用内外部数据,建立敏捷高效的大数据平台,完善数据资产管理和安全防护,培育基于场景的行业数据解决方案,成为各行各业的当务之急。

2.6 数据资产化和数据要素市场

数据作为新的生产要素,越来越多地参与价值创造、价值交换和价值分配,数据资产化成为必然趋势。数据资产是指数据在应用过程中所体现出的财产价值,能够给数据拥有者带来持续的收益。数据资产化就是将数据转化为可确权、可计量、可流通的资产的过程。一般涉及数据采集、数据清洗、数据加工、数据定价、数据交易等环节。数据采集和清洗是数据资产的基础,数据加工通过分析挖掘、知识提炼,赋予数据以更高价值,数据定价是数据资产化的关键,需要考虑数据的时效性、稀缺性、关联性等因素,数据交易则是数据资产变现的主要方式,可通过数据交易平台实现。

数据资产化的前提是明晰数据权属。数据具有非排他性、易复制等特性,在确权方面与有形资产有本质区别。我国民法典、数据安全法等明确了自然人的个人信息权益,但对企业、政府等主体的数据产权界定仍不明确,难以形成统一的司法保护。建立数据产权制度,厘清不同主体的数据权益边界,是发展数据要素市场的关键举措。比如可以针对不同类型的数据,分别赋予产权、使用权、收益权等权能。同时,还要加强数据确权配套服务,利用区块链、隐私计算、数字水印等技术手段,完善数据资产登记、流通、追溯机制。

数据要素市场是数据资产化的关键载体。目前,我国数据要素市场发展尚处起步阶段,呈现交易模式单一、定价机制不健全、服务体系不完善等特点。亟待加快顶层设计,制定市场准入、交易规则、行为监管等政策措施。比如在准入方面,建立分级分类的数据交易主体资质认证制度;在定价方面,构建统一规范的数据资产评估体系;在交易方面,鼓励培育形式多样的交易场景和交易模式;在服务方面,发展数据资产登记结算、争议仲裁、融资担保等中介服务。引导龙头企业、行业协会、科研机构共建共享数据开放平台,鼓励跨区域、跨部门、跨行业的数据流通共享。

当前,贵阳大数据交易所、上海数据交易中心等10余家数据交易所已经成立,在公共数据、企业数据、个人数据等细分领域率先开展了交易服务。中国信通院等单位编制的数据交易基本规范,为规范数据交易活动提供了参考。下一步,要进一步完善数据全流程生命周期价值管理,打通数据确权、定价、交易、流通等各个环节。推动政府数据开放共享,鼓励企业数据有序流通,保护个人数据合法权益,加快培育数字产业集群,构建万物互联、人机协同、跨界融合、共创分享的数据要素市场新格局。

2.7 数据安全、隐私保护和数据主权

数据是关系国家安全、企业发展、个人隐私的战略性资源。随着数据规模快速膨胀,跨境数据流动日益频繁,数据泄露、数据滥用等安全事件也频发,数据安全成为各国的重大议题。我国高度重视数据安全保护,陆续出台数据安全法、个人信息保护法等,为维护数据主权提供了法律保障。

数据安全是数字经济健康发展的底线,贯穿数据采集、传输、存储、处理、销毁等各个环节。数据管理者要全面梳理数据资产,围绕敏感数据开展分类分级保护,建立纵深防御体系。采集环节,应当坚持合法、正当、必要原则,不过度采集数据;传输环节,应当通过加密通信、访问控制等技术,防止数据被窃取篡改;存储环节,应当遵循最小化存储原则,及时删除过期数据;处理环节,应当全程记录数据流向,设置访问权限防止内部人员非法调用数据;销毁环节,应当采取物理销毁、多次覆写等措施,确保数据不可恢复。同时,还要开展数据安全风险评估、应急演练,提高数据安全事件发现和处置能力。

作为数据安全的重要内容,个人隐私保护已成为各国立法和执法的重点。我国个人信息保护法对个人信息的合法合规处理提出了明确要求,规定了告知同意、最小必要、公开透明、数据可携等基本原则。企业要严格落实相关规定,加强个人信息全生命周期管理。比如,收集个人信息时应当取得个人同意,保障个人对其个人信息的知情权;使用个人信息时,不得超出约定的处理目的、处理方式和范围;不再需要时,应当及时删除个人信息;发生或可能发生个人信息泄露时,应当立即采取补救措施,并通知个人和有关主管部门。此外,还要强化个人信息主体权利,提供更新、复制、转移等便捷的行权渠道。

在数字全球化浪潮下,数据跨境流动日益频繁。发达国家凭借技术、资本优势,加速向发展中国家转移数据中心,大量汲取数据资源,引发发展中国家对数据主权的担忧。美国出台跨大西洋数据隐私框架,欧盟出台通用数据保护条例,日本出台个人信息保护法等,无不体现维护数据主权的考量。我国也高度重视数据主权保护,数据安全法明确规定"国家主管机关负责组织协调数据跨境移动安全监管工作,可以对影响或可能影响国家安全、社会公共利益的数据实施出口管制"。下一步,还要出台数据跨境流动管理条例,完善数据出口管理清单、重要数据目录,加强对关键信息基础设施、重要数据等的安全审查,确立数据依法有序流动的基本原则。同时,积极参与全球数据治理,推动建立公平合理的国际数据治理规则体系,反对数据霸权主义,维护新兴经济体数字发展权益。

第三部分:算法——数字经济的引擎

3.1 算法的概念、分类和发展历程

算法是解决特定问题确切而完整的计算过程,是数字经济时代价值创造的关键驱动力。从古代算筹、机械计算,到现代计算机算法,再到人工智能算法,算法推动人类不断突破计算鸿沟。特别是进入人工智能时代,深度学习算法模拟人脑神经元,让计算机具备了感知、决策、推理、预测等智能化能力,成为经济数字化转型的核心引擎。

按照设计思路,算法可分为确定性算法和非确定性算法。确定性算法对相同输入总是产生相同输出,执行路径固定,如排序算法;非确定性算法可能出现多种运行路径,对相同输入可能产生不同输出,如遗传算法。按照时间复杂度,可以分为多项式时间算法和非多项式时间算法。前者能在多项式时间内完成任务,如最短路径算法;后者完成任务所需时间随问题规模呈指数级增长,如旅行商问题的动态规划算法。此外,还可以按照算法的应用领域、解题策略等进行分类。

现代算法经历了三个主要阶段:第一阶段是经典算法时期,强调利用数学方法构造最优解,包括排序算法、查找算法、图论算法等,多为确定性算法;第二阶段是启发式算法时期,面对NP难问题,从问题本身出发寻找满意解,包括模拟退火、遗传算法、蚁群算法等,多为非确定性算法;第三阶段是智能优化时期,利用机器学习算法让计算机自主学习优化策略,代表算法包括神经网络、决策树、支持向量机等。不同时期算法在设计思想、数学基础、应用场景等方面差异显著,但都体现了算法对经济社会发展的重要驱动作用。

3.2 机器学习算法:监督学习、无监督学习、强化学习

机器学习是人工智能的核心,其本质是通过算法让计算机系统从数据中自主学习,不断改进和优化模型,提高对未知数据的预测能力。根据训练数据是否带有标签,机器学习主要分为监督学习、无监督学习和强化学习。

监督学习是利用已知类别的样本训练分类器,对未知类别的样本进行分类。给定一组由输入和预期输出组成的样本,通过训练寻找一个最佳函数,将输入映射到输出。代表算法包括决策树、支持向量机(SVM)、逻辑回归、朴素贝叶斯、K近邻、Adaboost等。监督学习在数字经济领域应用广泛,如垃圾邮件识别、人脸识别、语音识别、信用评分、故障诊断等。

无监督学习则只给定输入样本,而没有预期输出。算法通过对无标签数据的学习,发现数据内在结构和规律。常见任务包括聚类、降维、关联、异常检测等。聚类将物理或抽象对象组织成多个类的过程,代表算法有K-means、DBSCAN等;降维是在保留数据特征的前提下,将高维数据转换为低维数据,代表算法有主成分分析(PCA)、奇异值分解(SVD)等;关联分析用于发现隐藏在大规模数据集中的有趣关联和相关联系,代表算法有Apriori、FP-growth等;异常检测则识别出偏离正常模式的罕见项目、事件或观测值,在欺诈检测、入侵检测等领域应用广泛。

强化学习通过智能体与环境的交互,根据环境反馈的奖励或惩罚,不断调整策略,最大化长期累积奖励。与监督学习和无监督学习相比,强化学习更注重目标导向和探索优化。代表算法包括Q学习、Sarsa学习、蒙特卡洛树搜索等。强化学习在不确定环境下序贯决策能力突出,在自动驾驶、智能游戏、机器人控制等领域崭露头角。如AlphaGo利用深度强化学习,战胜了人类围棋冠军。

机器学习虽然取得了长足进展,但在一些领域其性能和泛化能力仍不及人类。亟需在小样本学习、迁移学习、联邦学习、持续学习等方向加强研究,让机器学习模型更好地适应复杂多变的现实场景。此外,机器学习的可解释性不足,容易产生偏见和歧视等问题,必须强化机器学习的可信、可控、可用,确保其在社会经济活动中安全、公平、有益。

3.3 深度学习算法:CNN、RNN、GAN等

近年来,以深度学习为代表的人工智能新范式蓬勃兴起。相比传统的浅层机器学习,深度学习通过构建多层神经网络,模拟人脑神经连接,可以学习更高层次的数据特征和更抽象的概念。其网络结构一般包括输入层、多个隐含层和输出层,层与层之间通过权重矩阵连接。网络通过前向传播进行预测,通过反向传播校正参数,最终形成end-to-end的映射模型。深度学习在语音识别、图像处理、自然语言理解等领域取得了突破性进展。

卷积神经网络(CNN)是深度学习的代表架构之一。它采用卷积核对输入数据进行卷积操作,提取局部特征,通过池化层逐步降低特征维度,最后通过全连接层实现分类预测。CNN能够很好地利用图像的局部连接性和空间不变性,在图像分类、目标检测、语义分割等任务上表现优异。如2012年AlexNet在ImageNet图像识别大赛上以远超第二名的成绩夺冠,揭开了深度学习的崛起之路。此后,VGGNet、GoogleNet、ResNet等CNN网络层出不穷,不断刷新视觉任务的性能纪录。

循环神经网络(RNN)是另一类重要的深度学习架构。不同于前馈神经网络,RNN引入了状态单元的概念,通过将前一时刻的状态与当前输入进行计算,更新当前状态,从而建模数据的时序关联。理论上,RNN能够处理任意长度的序列数据。但在实际应用中,简单RNN会受到长期依赖问题的困扰。因此,门控循环单元(GRU)、长短时记忆网络(LSTM)等改进型RNN应运而生。RNN广泛应用于语音识别、机器翻译、情感分析等任务。如谷歌的神经机器翻译系统就是基于RNN编码器-解码器架构,实现了端到端的机器翻译。

生成对抗网络(GAN)开创了深度学习的新范式。传统深度学习主要面向判别模型,即给定输入预测输出。而GAN由生成器和判别器两个神经网络构成,通过两个网络的博弈学习,可以从随机噪声生成逼真的样本。其基本思想是,生成器努力生成以假乱真的样本欺骗判别器,判别器则不断提高对真假样本的判别能力。这个过程可以用纳什均衡博弈来刻画。GAN为解决生成问题提供了新思路,在图像合成、风格迁移、语音合成等领域取得了惊艳表现。但GAN的训练也面临模式坍塌、梯度消失等问题,亟需从网络设计、目标函数、评价指标等方面加以改进。