人工智能作为新一轮科技革命的核心技术,已经成为推动科技创新和经济发展的关键因素。“在政策和市场的双重推动下,中国人工智能产业进入高速发展阶段,技术红利快速释放,创新成果不断涌现,应用领域日益拓展。其中,人工智能发展与数据保护的关系,是确保人工智能符合国家利益、公共利益,促进技术和经济可持续发展的重要议题。”北京己任律师事务所合伙人赵克峰在日前举办的全球视角下AI数据训练中的版权和竞争利益冲突研讨会上表示,庞大的训练数据是人工智能模型生成理想结果的基础,但企业在应用过程中一定要重视预防数据风险。
赵克峰举例说,2023年6月,两名作家在美国加州北区法院,对OpenAI公司发起了版权集体诉讼,指控其未经授权就利用他们享有版权的图书训练ChatGPT,谋取商业利益。2023年7月,两位美国作家对ChatGPT母公司OpenAI提起诉讼,声称OpenAI在没有获得版权授权的情况下,就利用他们的作品来训练其人工智能。对于文学创作者来说,如果将自己的作品许可给大规模语言模型进行AI训练,AI生成物可能与其自身作品存在相似度,从而导致低质量的AI作品大量出现,形成对文学作品市场的挤占。
“该案件中,法院对‘合理使用’规则进行了进一步解读,认为作家们需要充分证明他们的书与ChatGPT输出的内容之间存在‘实质性的相似’,否则就在‘合理使用’的范围内。”赵克峰表示,该案体现了法院对AI技术发展一定程度上的鼓励。同时法院对类案进行合并审理,有利于统一裁量标准,也降低了作者的举证难度。中国权利人可以借鉴这种方式,共同联合起来主张中文语料的版权和数据权益,或参与塑造AI训练数据的使用规则。
赵克峰还对欧洲、日本等地的人工智能数据训练保护问题进行了介绍。在欧洲,一些国家、地区规定在数据集上训练AI模型,构成数据挖掘。未经作者同意的情况下,禁止数据挖掘。出于科学或商业目的的数据挖掘需要保证实体具有合法访问权限,权利持有人未禁止机器读取其相关作品。在日本,允许AI学习和分析公开的版权材料,无须取得版权持有人的同意,但必须保证不会对相关市场产生实质性影响,也不会侵犯版权持有人的利益。
赵克峰建议企业及时对自身作品进行版权登记,采用加密、访问控制等技术以防作品被AI轻易抓取。如果条件允许,可以使用数字水印、内容识别等手段,持续监控作品的使用情况。一旦发现侵权行为,可通过发送侵权通知、律师函、提起民事诉讼的方式,保护版权。如果遇到举证难题,可以针对著作权侵权行为或数据抓取行为,起诉为大语言模型提供训练数据支持的平台,从而获得权利的有效保护。