为了开发大模型,数据版权方是否应该做出牺牲?
郑四方 编剧
编辑| 龚正
全社会都在关注各个公司推出的大模型,却很少关注大模型背后的训练数据来自哪里,是否获得了数据版权方的授权,是否付费。
近日,广州必神习作公司计划起诉其长期合作伙伴学而思,指控其近期推出的实体大型模型MathGPT以及在学而思学习机上推出的AI助手未经其授权和许可进行爬取。 在收集大量数据后,学而思被要求公开承认错误,删除数据资源,并寻求1元赔偿。
笔者通过笔聚作文联系了与其保持业务沟通的学而思负责人,并发送信息求证,但截至发稿,学而思尚未回应。
#01
一夜之间,百万数据资源被直接爬取
四月的一个周日,上海中关村必深艺术品公司。
码农们都在家休息,办公室空无一人。 但直到周日,归来的程序员才发现,公司的海量数据在假期期间被一群“外人”爬了一遍又一遍,爬行总数超过了两百万次。
随后,盆神西座创始人兼CEO宋家伟分析判断,直接询问自己猜测的爬虫,结果发现爬虫不是别人,正是与自己保持多年合作关系的学而思。
风暴中的主角盆神习题成立于2017年,是一家面向中小学生习题的AI复习平台和贡献社区,隶属于上海一一亮化科技有限公司。
创始人宋家伟是一位技术专家,也是一位热爱写作的职业画家。 经过6年的创业,盆神练习收集并积累了大量以中学生为主的用户练习资源。
据官方宣传资料显示,“笔神作品每月收到超过30万篇论文投稿,超过40万条点赞评论。六年来,笔神作品累计作品素材超过百万条,每月评论量更多”超过 30,000 篇文章。”
宋嘉伟表示,团队创业的心血都融入其中,成果也是从那时起一点一滴积累起来的。
他还记得,为了获得习题资料的数据,盆神邪采用了人工初审的方法,对提交的习题进行了逐一筛选,通过标注、分级、数据清理(指发现并纠正数据中的错误)文件)等,最终能够累计到当前的工作材料量。
宋嘉伟觉得,正是这种优质的练习数据资源,成为了“宇宙外人”眼中的目标。
▲图|学而思&工笔画
盆神功法与学而思的合作可以追溯到两年前。 当时,盆神习作与学而思旗下学习工具APP体拍拍签约,为其提供作业查询资料服务。
据官方介绍,TiPaiPai是一款免费接听应用。 它于2020年3月推出,覆盖所有年级、所有科目。 为广大用户提供真人在线免费答疑服务,专注于6-18岁中小学生课外学习场景。 。
根据双方合作协议,双方约定,笔神戏将作为踢牌中的练习部分,仅提供用户查询服务,踢牌不会在本地缓存工作数据和进行机器学习训练。
协议中有多个条款,明确规定了笔神数据的用途。
1、广州三体云联网络科技有限公司(即学而思子公司“三体云联公司”)作为第三方技术服务提供者,有义务保护上海壹壹亮化科技有限公司(即“三体云联公司”)的合法权益。一招二招公司》)服务套接字安全,在双方约定的平台或产品中使用合作插座内容之前,应先经过一招二招公司认可。
2、合同原文规定,三体云联不得随意泄露、使用、传播或缓存甲方服务套接字中的样本文本及相关内容,否则乙方应全额赔偿由此造成的损失。
3、合同原文规定,未经一打二画许可,三体云联不得用于任何其他用途,包括类存储、存储、语料估算、训练等。
基于双方的合作精神,PenShen工作介绍,其自身的技术团队设计了一套完整的安全机制,正常情况下可以防止黑客攻击爬虫。 并且只有学而思提供给合作伙伴的socket是不设防的。
抓取丑闻被揭露后,宋家伟也一度怀疑黑客利用这个socket窃取数据,于是专门找了经常和学而思交流的程序员进行了排查。
但让他意外的是,对方直接承认了盆神功法的后台数据被频繁调用,而且确实是学思算法组的调用操作。
一般来说,算法组的任务之一就是训练大型人工智能模型。 果然,数据调用异常后不到两周,大量关于学而思大型实体模型的消息就开始密集出现。 5月初,学而思宣布将推出MathGPT,以及正式推出的AI助手所涉及的功能。
宋嘉伟团队高度怀疑学而思的这款产品将其多年来积累的数据为自己所用。 关键是还没有得到盆神西座的同意。
特别是,AI助手被介绍为“涵盖运动助手、口语助手、阅读助手、数学助手等功能”。 宋嘉伟表示,学而思并没有大量的练习材料数据,否则双方之前的合作就不会开始。
苦心经营多年的数据,在一个假期里私自爬取。 “团队苦心经营,为别人的大模特做了一件嫁衣。” 宋嘉伟说道。
风波爆发后,宋家伟多次向学而思相关方询问,包括发律师函,但始终没有得到实质性答复。
目前,该公司已收集证据偷网站模板,并计划走司法程序维权。 其要求有三重:
要求公开道歉、删除非法获取的数据并终止应用,并要求赔偿1元。
关于笔神练习的申诉,笔者通过笔局作文联系到了学而思相关负责人。 对方通过沫沫的验证并看到相关问题后,直接屏蔽了沫沫的联系方式。 没有回应盆神功的呼吁。
#02
海外类似纠纷频发
工笔功法与学而思提拍拍之争,揭露了大模特潮流中一个容易被忽视的角落。
大模型想要显得智能,就需要对海量数据进行深度学习。 但海量数据从何而来,是否经过版权方授权,是否需要付费,目前都是一个模糊的领域。
“真实故事研究室”收集了许多国外的过往案例。 围绕一般版权的诉讼案件较多,但围绕大规模模型数据版权的诉讼却很少。 然而,在海外,类似的数据版权纠纷已经频频发生。
我先说一下推论。 从海外数据版权纠纷来看,侵权方与被侵权方之间并未达成共识。 这使得数据版权保护变得困难。
去年年初,被誉为日本最大商业画廊提供商的 GettyImages 在美国起诉 StabilityAI。 这是日本首起涉及人工智能的重大知识产权纠纷。
StabilityAI,AI 图像生成模型 StableDiffusion 的创建者。
GettyImages 认定 StabilityAI 非法复制和处理了 GettyImages 拥有或代表的受版权保护的图像和相关元数据,涉及数百万数据。 不过,这一行为并未获得GettyImages的任何授权。 在为StabilityAI带来商业利益的同时,也侵犯了内容创作者的权益。
截至目前,StabilityAI 尚未对这一说法公开发表评论,但其首席执行官 Emad Mostaque 在 Facebook 上表示,“我觉得它们(指我自己)的获取和使用方式符合规范、道德和法律标准”。
▲图片| 人工智能正在快速学习数据并扩展更多用途
这些案例并非独一无二。
去年4月,澳大利亚艾伦人工智能研究所(成立于2014年,最初定位为AI技术自研平台)等发布了对微软C4数据集的调查结果。
该调查反汇编了微软的C4数据集,该数据集是法国许多知名AI大型模型的训练材料,例如微软的T5(2019年10月发布)和Facebook的LLaMA(2023年2月发布)。
拆解的目的是研究C4数据集中包含哪些数据源。 研究认为,这与许多德语AI模型所使用的数据的合法性有关,例如是否存在侵权、是否存在“脏数据”(例如本身就是盗版的数据)。
调查结果显示,C4数据集实际上包含约1000万条网站数据,其中很大一部分来自不正当的数据来源,包括盗版电子书网站b-ok.org等。
而一些像创意产品众筹网站、个人博客也被收录并且排名靠前,这意味着此类数据被使用的权重更高。 问题的关键在于,这些数据版权人可能并未获得任何授权或报酬。
OpenAI作为颈部人工智能的大模型,甚至知道行业中存在的问题,但并不直接提出解决方案。
去年5月16日,OpenAI首席执行官萨姆·奥尔特曼在听证会上表示,他主张主管部门对生成式人工智能进行监督和干预。 不过,对于作品被用于人工智能生成的歌曲、文章或其他作品的内容创作者将如何获得补偿的问题,奥特曼并没有给出明确的答案。
▲图| OpenAI 首席执行官山姆·奥尔特曼
从上述案例可以看出,数据著作权方受到侵害是很多大型车型都曾发生过的事实。 版权人和使用者在相关问题上存在分歧,尚未达成一致解决方案。
#03
数据侵权整治正在进行中
从国内外数据版权纠纷来看,这是否意味着数据版权人的利益无法得到保护?
我们先来说说推理。 目前,我国《著作权法》对数据版权保护有相关规定,侵权者可以使用。 其次,包括中国互联网信息办公室在内的相关单位、行业组织已经行动起来,拟出台措施或发出呼吁偷网站模板,保护数据版权人的利益,全社会的共识正在凝聚。
在我国现行《著作权法》框架下,GPT训练数据使用过程中的不同行为可能存在专着侵权的风险。
《著作权法》规定了12种合理使用,包括为个人学习、研究或者欣赏; 为介绍、评论某一作品或者解释某一问题,在作品中适当引用他人已发表的作品; 报道时事新闻,难免转载或引用各媒体已发表的作品; 用于中学课堂教学或科学研究等。
ChatGPT对训练数据的使用显然不是为了“个人学习”、“教学或科学研究”或“公共文化机构”。
针对大车型带来的新形势,国内外正在出台一系列新的政策文件,进一步规范。
4月11日,中国网信办起草了《生成式人工智能服务管理办法(征求意见稿)》,以促进生成式人工智能技术健康发展和规范应用。 其中一项明确强调,用于生成式人工智能产品的预训练和优化训练数据应满足不侵犯知识产权的内容。
▲图片| 大规模模型开发,版权保护不可忽视
国际社会也在推动相关讨论。
4月30日,世界发达国家技术负责人在台湾发表联合声明,强调需要推动ChatGPT等人工智能工具的“负责任”使用。 其中包括补救措施、如何保护包括版权在内的知识产权、提高透明度、处理虚假信息以及如何负责任地使用这些技术。
目前,国外相关行业已经开始采取相关行动。
近日,英语在线(300364)、同方知识网、中国工人出版社等26家单位联合发布首份国外AIGC训练数据版权诉求。
作为业界首个AIGC数据版权诉求,业内认为其最大价值在于两点:一是唤起国外AI企业对大规模模型训练数据的版权意识;二是激发国外AI企业对大规模模型训练数据的版权意识。 二是为AIGC开发者提供定向指导,避免版权纠纷。
相关人士强调,合理使用合法数据的呼吁是对AIGC研发主体的警示和启发。
回到彭神功与学而思之争的最开始,关注本案进展的意义在于,它关系到所有持有优质数据版权的企业的切身利益。 然而,大型模型产业要想健康发展,就不能对存在的问题装聋作哑、听之任之。
宋家伟回忆,一开始,盆神西座与体拍拍的合作过程相当愉快,即使中间出现了行业调整,也没有影响双方的合作。
双降打压之下,教育培训行业受到新政策调整,业务受到影响。 宋家伟表示,在产权拍卖效益不好、规模变小的情况下,盆神还将协议中约定的服务费调整为原来的三分之一,打算携手共度寒流教育和培训。
但寒潮还没有过去,宋嘉伟惊讶的感觉自己被搭档在背后捅了一刀。
参考:
1、《“你的AI侵犯了我的版权”:探究AIGC背后的版权保护问题》,腾讯研究院,2023年3月1日发布
2、《GettyImages在日本起诉StabilityAI在AI训练中侵犯版权》,购买麦视奇知识产权,发表于2023年3月6日
3、《媒体揭露大模型的阴暗面:训练用的数据可能有点脏》,旭诺资产,2023年4月20日发布
-结尾-
如果您有线索或想进一步讨论,
欢迎后台输入关键词“读者群”加入我们。
搜索数千个可自定义的 Microsoft 模板以快速启动您的工作、学校和家庭项目
Microsoft 提供了大量免费或中级 Office 模板供日常使用。 创建自定义照片卡,使用 Microsoft Office 模板来推销您价值百万美元的想法或组织您的下一次家庭度假。 通过 PowerPoint、Excel 和 Word 模板找到适合您任务的完美工具。
查看适用于多种格式文档的免费 Word 模板。 举办活动? 使用邀请模板或传单模板邀请客户。 使用可复印的感谢卡表达您对良好行为的赞赏。 当需要换工作时网站全套模板,使用可定制的简历模板或求职信可以帮助您找到梦想的工作。
许多 PowerPoint 模板为您的所有信息图表和数据演示需求提供了完美的起点网站全套模板,提供各种主题、图表和设计选项。 将演示文稿模板用于您的下一个中学项目,或者在您的宣传中添加信息图表以完善您的演示文稿。
Excel 模板使数据管理和信息跟踪变得更加容易。 使用 Excel 的预算模板来管理业务总额,使用库存模板来跟踪资产,并使用团队成员在跟踪时使用甘特图模板。 为了帮助管理您工作之外的生活,请发布家庭任务计划,或使用周末计划模板协调您的下一次旅行。
探索专为每个活动或场合设计的丰富模板集合。 使用商业计划模板将项目和想法变为现实,或者使用预先格式化的名片模板表达您的想法。 使用个性化的生日贺卡模板向特别的人致以生日快乐,或使用可复制的月历模板进行跟进。
无需设计经验。 使用 Microsoft 模板浏览、自定义和创建更多内容。