冯超等 | 人工智能数据训练阶段相关风险简析

Original 冯超薛莲王润菁知产前沿

2024-08-26

文 | 冯超薛莲王润菁

泰和泰（北京）律师事务所

· 生成式人工智能数据训练涉及哪些方面的法律风险？一、使用具有合法来源的数据二、涉及知识产权的情形三、涉及个人信息的情形四、结语

生成式人工智能绘图著作权侵权第一案一审于近日宣判，引发了学界、业界对人工智能生成物可版权性问题的又一轮热烈讨论，而生成式人工智能所涉及的问题，除了尚无定论的人工智能生成物可版权性问题外，生成式人工智能数据训练阶段是否侵犯相关权利人权益亦有部分争议。对此问题，笔者将于本文作简要梳理与汇总，不足之处，还请批评指正。

生成式人工智能数据训练涉及哪些方面的法律风险？

根据《生成式人工智能服务管理暂行办法》第七条对生成式人工智能服务提供者训练数据提出的相关具体要求：

“（一）使用具有合法来源的数据和基础模型；

（二）涉及知识产权的，不得侵害他人依法享有的知识产权；

（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；

（四）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性；

（五）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”

下文中笔者将对（一）至（三）项作具体阐述。

一、使用具有合法来源的数据

要求源于第七条第（一）项，使用“具有合法来源的数据”。实践中不合法多体现为不正当地爬取数据、以撞库手段获取他人数据库等等，构成不正当竞争的，^[1]由《反不正当竞争法》规制，相关判例如下：

另，笔者注意到有文章提及《著作权法》第49条、53条同样对合法的获取方式做了规定。但49条第三款明确定义“本法所称的技术措施，是指用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件。”因生成式人工智能服务提供者绝大多数情况下上并不涉及原样提供相关作品，笔者认为可能并不能适用此条。

二、涉及知识产权的情形

要求源于第七条第（二）项，“涉及知识产权的，不得侵害他人依法享有的知识产权”。生成式人工智能在数据训练阶段，通常涉及数据挖掘，将非电子数据数字化的过程可能构成对复制权的侵害。尤其是在永久复制的场景下。^[4]

我国目前暂无生成式人工智能合理使用相关诉讼。最为近似的是此前人工智能领域的王莘诉谷歌案。一审法院认为全文复制行为属于《著作权法》规定的复制行为，且“进行全文复制的行为已与原告作品的正常利用相冲突，亦会不合理地损害著作权人的合法利益，这一复制行为并未构成合理使用行为，已构成对原告著作权的侵犯”。^[5]二审法院虽维持原判，但参考了美国合理使用“四要素”认定方法，提及“虽然未经许可的复制行为原则上构成侵权，但专门为了合理使用行为而进行的复制，应当与后续使用行为结合起来看待，同样有可能构成合理使用。”同时提及“在《著作权法》第二十二条规定的具体情形外认定合理使用，应当从严掌握认定标准。”该案中因谷歌公司并未就复制行为是否构成合理使用提交证据，因此其主张复制行为构成合理使用，证据不足。^[6]一二审法院对合理使用的认定稍有差异。

当前我国《著作权法》第24条以列举形式规定了合理使用的12种具体情形，以及“其他情形”的兜底条款。生成式人工智能数据训练难以归属为12种具体列明合理使用情形，但第13项兜底条款为其合理使用的判断预留了空间。在《最高人民法院关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第八条^[7]中，也提及了“四要素”的判断方法。

但多位学者评因立法并未对这种新情形作具体规定，可能引发法律明确性不足的一系列弊病。“法院目前似有突破著作权规定之嫌，在判断中常常混用“三步检测法”与“四要素法”，判决结果常常难以预测。”^[8]“此种在裁判中有意忽略对合理使用类型的阐明，在合法性上存在重大隐患。在人工智能产业快速发展的当下，未来可能呈现出越来越多的作品使用情形，如果不对人工智能深度学习的行为性质进行明确的立法界定，恐将诱发大量诉讼，无助于互联网产业的健康发展”。^[9]“在本国司法审判中的认定标准杂糅和过于随意的概念移植频繁出现，以及不同法域著作权例外，的灵活性和稳定性之争尚无定论的情况下，我国著作权合理使用司法认定标准呈现不同法院各自为政的局面不足为奇。”^[10]

故而有学者主张将生成式人工智能数据训练纳入合理使用范畴。在《著作权法》修法中，为人工智能数据训练扫平阻碍。

如徐小奔将数据价值分为原初价值与经分析后知识增值的价值，认为机器学习并不会涉及作品的原初价值，“人们不会对人工智能深度学习的过程本身评价其价值性，而只有在输出内容之后，才能判断是否有价值”。而对于机器学习的知识增值价值，认为机器分析不会将原作品原样呈现，其形成的知识增值独立于作品的原初价值。且这种知识增值不会影响到作品的原有价值与市场利益，因此著作权人通过复制权去控制人工智能的使用行为，并试图分享增值利益即不具备正当性基础。人工智能深度学习行为可以落入至著作权制度中合理使用范畴。^[11]

与之类似的是焦和平按照“表达性使用”与“非表达性使用”的二分方式区分作品的使用。但焦和平认为“非表达性使用”可以“转换性使用”作抗辩，但“表达性使用”仍面临侵权风险，但出于价值考量，应当在制度上予以回应，将人工智能数据利用纳入至合理使用范畴。^[12]

林秀芹提出“传统版权法的‘作者中心主义’和严格的‘三步检验法’不能适应AI技术变革的需要。为了促进创新和AI技术的发展，合理使用应当扩张并进行制度重塑。”^[13]

刘友华提及“著作权制度的严苛保护模式将会限制机器学习技术的发展”，同时，“宽松的著作权保护模式将抑制作者创作的积极性”，“当前不宜将机器学习完全排除在合理使用制度之外，也不可将其完全纳入，而应针对机器学习的具体情形做具体分析。”具体而言以商业与非商业作区分。^[14]

同样有学者对司法裁量予以肯定，如从立先等认为“合理使用兜底条款属司法路径中较为可行的一种解决方式。但作为对权利的限制不应被过度‘打开’，较为可行的做法是在个案中叠加适用三步检验法与美国的四要件规则进行综合判断”。^[15]

三、涉及个人信息的情形

对于第（三）项，涉及个人信息的情形，生成式人工智能服务提供者可参考的典型案例为“脉脉”非法抓取使用微博用户信息不正当竞争纠纷案，该案确立了“三重授权原则”。

新浪-脉脉案入选2016年度北京法院知识产权司法保护十大案例，影响了后续的诸多类似案件裁判。2021年《个人信息保护法》第二十三条在立法上回应了三重授权原则：“个人信息处理者向其他个人信息处理者提供其处理的个人信息的，应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类，并取得个人的单独同意。接收方应当在上述处理目的、处理方式和个人信息的种类等范围内处理个人信息。接收方变更原先的处理目的、处理方式的，应当依照本法规定重新取得个人同意”。

而对于三重授权原则，学界与业界同样有不同观点。

持肯定意见的如薛军，认为三重授权较好地平衡了各方利益，“对于我国未来个人信息保护以及数据信息产业的健康发展具有指导意义”。^[16]

持反对意见的如徐娟，在博弈均衡模型下对企业决策进行分析，认为三重授权原则“不符合效益决策模型”，“既不利于技术创新，也存在伪隐私保护的嫌疑，没有根据强市场保护的效果决策”。^[17]

折衷观点如徐伟认为，三重授权原则不应当普遍适用于所有数据类型，应将涉及个人信息的数据类型分为可识别的原生数据与非可识别的衍生数据，对不同情形采取不同规则。^[18]

四、结语

生成式人工智能等新兴技术的迅猛发展对传统法律体系带来了一系列挑战，也催生了学界与业界的众多不同观点。《生成式人工智能服务管理暂行办法》是我国在新兴领域立法的最新成果，体现了我国对新技术新应用发展规制策略的持续推进。其中第七条为生成式人工智能服务提供者数据训练提供了明确指引。未来相关法律体系或将进一步完善，相关规则解读或将进一步明确具体。相关主体可对此密切关注。

注释（上下滑动阅览）

【1】需要判断二者是否构成竞争关系。【2】https://www.chinacourt.org/article/detail/2019/11/id/4608921.shtml【3】https://www.thepaper.cn/newsDetail_forward_10852599【4】万勇：《人工智能时代著作权法合理使用制度的困境与出路》，载《社会科学辑刊》，2021年第5期。【5】北京市第一中级人民法院（2011）一中民初字第1321号。
【6】北京市高级人民法院（2013）高民终字第1221号。【7】“正确认定合理使用和法定许可行为，依法保护作品的正当利用和传播。在促进技术创新和商业发展确有必要的特殊情形下，考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素，如果该使用行为既不与作品的正常使用相冲突，也不至于不合理地损害作者的正当利益，可以认定为合理使用。”
【8】张金平：《人工智能作品合理使用困境及其解决》，载《环球法律评论》，2019年第3期。【9】徐小奔，杨依楠：《论人工智能深度学习中著作权的合理使用》，载《交大法学》，2019年第3期。
【10】熊琦：《著作权合理使用司法认定标准释疑》，载《法学》，2018年第1期。【11】同前注⑨。【12】焦和平：《人工智能创作中数据获取与利用的著作权风险及化解路径》，载《当代法学》，2022年第4期。【13】林秀芹，《人工智能时代著作权合理使用制度的重塑》，载《法学研究》，2021年第6期。【14】刘友华，魏远山：《机器学习的著作权侵权问题及其解决》，载《华东政法大学学报》，2019,22(02):68-79.【15】丛立先,李泳霖：《聊天机器人生成内容的版权风险及其治理——以ChatGPT的应用场景为视角》，载《中国出版》，2023年第5期。【16】https://www.law.pku.edu.cn/xwzx/pl/38788.htm【17】许娟：《互联网疑难案件中数据权利保护的风险决策树模型》，载《南京社会科学》，2019年第3期。【18】徐伟：《企业数据获取“三重授权原则”反思及类型化构建》，载《交大法学》，2019年第4期。

冯超专栏文章（节选）SPECIAL COLUMN

冯超等 | 揭开侵权人面纱：权利人应如何处理及应对商标转让后的无效宣告

冯超等 | 互联网广告屏蔽行为不正当竞争分析

冯超等 | 商标《共存协议》有效性的认定标准探究

冯超等 | 国家知识产权局发布《商标注册申请快速审查办法（试行）》，四种情形可请求快速审查

冯超等 | 一般商标申请人亦可适用商标代理机构条款予以规制——关于商标法第十九条第四款要件思考

音乐作品中使用采样的著作权问题

论知识产权侵权诉讼中证据保全申请及被告恶意妨害保全对判决结果的影响

作者简介

冯超，资深知识产权律师，泰和泰（北京）律师事务所高级合伙人。

冯超律师毕业于美国杜克大学和中国外交学院，获得法学硕士学位，曾在知名国际和国内律所执业。过去二十年里，冯律师代理了大量知识产权申请案件、知识产权侵权、确权诉讼案件、不正当竞争案件和与知识产权相关的反垄断案件，参与了大量知识产权交易合同的起草、谈判和执行。同时，冯律师在网络安全、数据保护和数据合规领域具有丰富经验，是较早关注并从事企业数据安全与保护、数据跨境传输相关法律业务的律师之一，并获得ALB、MIP、WTR、Legal band、AsiaIP等国内外权威评级机构的认可和推荐。

冯超律师团队由十余名毕业于国内外知名法学院的律师和专利代理人组成，团队成员均具有法学硕士或博士学位，可用中、英、日、法、马来语等向客户提供知识产权、数据保护、外商投资、民商事争议解决等领域的法律服务。

联系方式：

+86-13910336970

Charlesfeng@tahota.com

Fchao7847@hotmail.com

作者：冯超薛莲王润菁

编辑：Sharon

点击图片查看文章

(www.trademarkevents.cn)

(www.giips.cn)

继续滑动看下一个

知产前沿

向上滑动看下一个

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

入不敷出的成武县，每年给退休公务员发8亿养老金

冯超等 | 人工智能数据训练阶段相关风险简析

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

入不敷出的成武县，每年给退休公务员发8亿养老金

生成图片，分享到微信朋友圈

冯超等 | 人工智能数据训练阶段相关风险简析

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！