新闻动态 - 国际院士科技创新中心

新闻动态

观点 | 加快推进我国人工智能训练数据一体化规制

浏览次数：932 发布时间：2024-03-22 09:47:33

以生成式人工智能为代表的新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的重要驱动力量。习近平总书记指出，要整合多学科力量，加强人工智能相关法律、伦理、社会问题研究，建立健全保障人工智能健康发展的法律法规、制度体系、伦理道德。目前，我国有关立法机关应密切跟踪人工智能训练数据技术发展，深入分析现有人工智能训练数据规制的缺陷与症结，在充分整合现有规制资源基础上，加快推进我国人工智能训练数据一体化规制体系建设，以促进生成式人工智能规范应用与健康发展。

现有法律规制生成式人工智能训练数据面临的问题

生成式人工智能，是指基于算法、模型、规则生成文本、图片、音频、视频等内容的技术。生成式人工智能具有高度智能化、强大的语言生成能力、广泛的应用场景三大特点。作为一种新型的商业化应用方式，生成式人工智能的发展需要两个必备条件：一是拥有建立在海量数据基础上的模型参数数量，二是超高速的运算能力。而在实践中数据往往依托于文字、声音、图片等非结构化的形式存在，因此，海量数据的获取实际上很难通过手动完成，必须通过文本与数据挖掘过程才能提取有用信息。当下，生成式人工智能技术主要通过机器学习处理与分析大量数据，将数据中有用的信息训练为机器学习模型，这就是人们通常所说的人工智能训练数据的过程。

目前，法律规制生成式人工智能训练数据主要面临以下三个方面问题：其一，生成式人工智能训练数据中的数据安全风险防范能力不足。由于生成式人工智能在预先自主学习训练过程中不受人工监督，也不能主动对数据的来源进行实质性筛选和过滤，所以数据在源头可能存在内容不合法、内容虚假或完全错误的风险，从而导致对后续用户生成含有不当信息的回答。其二，生成式人工智能训练数据可能会对信息泄露控制失灵。一旦将用户输入的个人数据或商业秘密采集并存储到人工智能语料库，使其成为模型训练的基础语料，就可能产生信息泄露风险。虽然生成式人工智能服务提供者承诺删除所有个人身份信息，但大多没有说明删除方式，在不能对信息与数据来源进行事实核查情况下，这类信息仍然具有泄露风险。同时，在大数据技术加持下，即使是匿名数据仍有很大可能被重新识别，进而在数据训练环节进一步增加信息泄露风险。此外，对于信息泄露问题用户使用协议中说明生成式人工智能不主动获取用户个人信息，但若是用户主动输入包含其个人信息的内容，用户协议中并没有说明如何解决；关于涉及商业秘密的信息将被如何处理，更是付之阙如。其三，生成式人工智能数据训练中的著作权侵权风险无法得到有效消解。在数据训练过程中，生成式人工智能大模型需要挖掘、复制与提取海量数据并将其转化为可以被计算机处理的结构化数据，最后纳入自身数据库中，为生成输出内容提供支撑。在此过程中，也隐含着侵犯数据主体知识产权特别是著作权的风险。

生成式人工智能训练数据法律规制的挑战及其成因

生成式人工智能训练数据法律规制的挑战在于数据挖掘者、被挖掘数据的权利人，以及社会公众三者之间的利益冲突。其中，数据挖掘者与被挖掘数据的权利人之间可能存在显性冲突，数据挖掘者与社会公众之间可能存在隐性冲突。一方面，对于著作权法律法规而言，生成式人工智能训练数据法律规制面临的挑战，主要表现为：生成式人工智能大模型所处理的数据量级决定了无法完全获得著作权人的授权，导致数据处理行为的著作权侵权风险增加。而为了规避上述风险，剔除或者仅收集已经进入公有领域的作品或者不含有著作权的非作品数据作为训练数据，则又会导致数据训练的结果出现偏差，数据训练的目的难以有效实现，易降低生成式人工智能所产生内容的质量。同时，考虑到数据训练模型需大量数字化复制作品并存取，仅将数据副本临时存放在缓存内并不符合技术逻辑，无法构成临时复制。而要取得所有训练数据的著作人授权的交易成本显然过高，又不符合经济效益原则。另一方面，在个人信息领域，现有法律规定的“合理”处理相对模糊，《中华人民共和国个人信息保护法》第二十七条确立的直接保护模式无法有效满足生成式人工智能训练数据的需求。就现有个人信息保护法而言，生成式人工智能训练数据法律规制面临的挑战为：传统个人信息利用的知情同意规则被虚置、个人信息拒绝权与删除权无法得到有效行使、个人信息去识别化的标准尚不明确等。从本质上看，人工智能技术的快速发展大大增加了因不当使用已披露的个人信息而危及个人财产安全及个人独立性和自主权的风险。传统为个体赋权的间接保护模式已不能满足生成式人工智能训练数据对于已公开个人信息保护的现实需求。

笔者认为，生成式人工智能训练数据法律规制面临困局的深层原因在于传统类别化规制模式的失灵。目前，人工智能训练数据内容被不同部门划定了不同规制区块。这种规制思路在于区分人工智能训练数据的属性：构成作品的，由著作权法按照作品进行保护；构成个人信息的，依据个人信息保护法进行保护。近年来出台的日趋严格的数据安全保护法律，使得客观上利用人类产生的数据训练人工智能的法律风险陡增。这些数据中不仅可能隐含个人信息，而且许多数据还受版权保护。在互联网隐私与版权保护尚未形成统一标准与完善架构的当下，使用互联网数据进行训练，极易引发大量法律纠纷。而如果考虑对这些数据进行脱敏，又面临筛查识别准确率方面的挑战。实际上，回归技术层面，我们会发现，在生成式人工智能数据训练中，不可能也不需要去逐一分析其所挖掘的每一条数据的性质是作品还是个人信息抑或其他。训练数据的混同性决定了生成式人工智能训练数据法律规制不能分而治之。只有一揽子解决人工智能数据训练的合法性问题，才能跨越著作权法与个人信息保护法等不同法律部门之间的区隔，实现我国人工智能训练数据一体化规制。

生成式人工智能训练数据一体化规制体系的确立与完善

法律规制必须建立在对规制者现有的规制资源及被规制对象充分认知基础上。我国生成式人工智能训练数据的法律规制，既不能无视生成式人工智能产业发展的现实需求一禁了之，也不能罔顾权利主体作为“源头活水”的法律地位，从而对训练数据的法律规制问题投鼠忌器。只有尽快确立并完善我国生成式人工智能训练数据的一体化规制体系，才能有效消除生成式人工智能训练数据区隔化规制弊端，为我国生成式人工智能产业的集群化发展与竞争优势提升提供制度支撑与法治保障。

首先，确立人工智能训练数据处理者的义务规则。数据处理者的义务主要包括数据来源披露义务、生成内容标记义务和日志保存报告义务。在一体化规制体系中，数据处理者的义务应当是前置且先行的。即人工智能训练数据处理者需要定期主动向监管机构披露其用于训练的数据的来源，提供便于用户操作的生成内容标记技术，以及保存有关记录并向监管机构报告。这是因为数据处理者本身也是技术的控制者。相较于监管者、生成式人工智能技术的消费者和社会公众而言，数据处理者具有巨大的技术优势和经济优势，能够以最具效率的方式在数据处理过程中对潜在的著作权风险进行预处置。其次，通过完善数据知识产权登记制度，为高质量数据集的开发与应用提供制度保障与激励。优质数据是未来大模型的核心竞争力。只有拥有高质量的数据，才能够让大模型训练出高质量的内容。具体而言，在训练数据来源披露的基础上，可以通过赋予数据权利主体的拒绝权、设置程序性的预公开与归集异议制度，以及侵权责任豁免制度，明确已登记数据集的财产属性，从而激励生成式人工智能训练数据优先采用权利瑕疵更少、质量更好的登记数据集。再次，确立生成式人工智能训练数据侵权规则，保障作为数据来源的权利主体的利益。对于未采用已登记数据集的训练数据行为，基于损益同归法理，应将无过失责任作为其侵权责任认定的基本原则。这实际上是将侵权成本分配给采用非登记数据集的数据训练者一方，鉴于该原则的引入可能会造成人们对人工智能的投资与使用意愿降低，可通过划分不同人工智能种类设置不同赔偿限额予以解决。最后，制定“人工智能法”，基于一体化视角从权利限制与产业激励维度系统规范人工智能训练数据行为。该一体化规制体系的核心在于以法律促进技术发展，而不是让技术受制于法律的窠臼。因此，需要厘清技术赋能、技术风险及技术规制之间的逻辑关联,立足我国立法与司法实践，助力我国人工智能产业形成竞争优势，努力健全国家治理急需、满足人民日益增长的美好生活需要必备的法律制度。

上一页：新时代加快形成新质生产力的焦点难点与关键路径

下一页：政策 | 国务院办公厅发布《扎实推进高水平对外开放更大力度吸引和利用外资行动方案》