GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

一位网友在推特上公开炮轰GitHub

博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

「他们简直是不知羞耻。」

7月7日,一位网友在推特上公开炮轰GitHub:

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

这位用户贴出了一封GitHub的邮件回复。

邮件中,GitHub官方确认了他们会使用所有GitHub公开代码来训练Copilot,并且不区分License类别

而在之前,明明官方有过“Copilot是在GPL代码的基础上训练出来的”这种说法,但之后GitHub的CEO又表示:

每天都有数百名GitHub的开发者在使用Copilot,如果预览版进展顺利的话,我们将计划在未来某个时候将其扩展为付费产品。

完全就是一副视General Public License如无物的样子。

这位博主讽刺到,遵守版权的只有穷人和无产者,富人和大公司想怎么做都可以。

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

这个消息一出,网友们直接炸了。

“我们不区分License”

不区分License类别,这意味着什么?

不管是使用了以下哪一份协议的代码,GitHub都有可能拿来训练Copilot。

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

△图源博客《如何选择开源许可证?》

如果未来Copilot真的变成付费商品,那么对于很多并不允许被修改后拿去商用的源代码来说,这毫无疑问是一种侵权行为。

更何况还包括了整个GitHub里的所有代码!

在GitHub自己的服务协议(ToS)里,他们可都表示“这份协议并没有给GitHub出售您内容的权利”:

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

不过有人觉得事情没那么严重:

他们没有真正出售代码,他们卖的是一种代码组合的模式。

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

确实,GitHub官方有说过Copilot“通常不会精确复制代码块”。

但马上就有人反驳:

可是大量的例子表明Copilot就是在逐字复制-粘贴代码块,实质上不就是在出售别人的代码吗?

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

而且,要是Copilot自动生成的代码就是从别处一字不差的照搬来的呢?

又或者来自某个不允许被商用的源代码,而用户又拿着这些自动生成的代码去商用了呢?

不仅是GitHub自己违背版权,这种不顾License的商用也有可能让用户在无意识间面临被起诉的风险。

而GitHub Copilot的下载页面中,并没有与此相关的法律风险的提示。

最开始曝出这一事件的博主表示:

GitHub以及微软认为,个人和小型社区项目的版权是没有价值的。这也就是为什么他们会和自由软件们打成一片;他们从来都没打算尊重过我们的权利。

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

而目前,GitHub还没有对这件事作出回应。

抄袭可耻,AI无罪?

Copilot上周二由GitHub和OpenAI联合发布。

至此,发布不到两周,Copilot就深陷“版权侵犯”的质疑之中。

在发布之初时,GitHub称:

Copilot可以分析文档中的字符串、注释、函数名称以及代码本身,从而生成新的匹配代码,包括之前调用的特定函数。

简单来说,这就是个“自动代码生成器”。

刚刚发布时有人把Copilot拉去刷Leetcode的题库,结果这位“AI程序员”每次都能通过Leetcode的测试,代码生成速度还近乎实时:

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

只要写下一段注释,Copilot就能补全剩下的代码,并提出改进的建议。

不仅能为真的程序员节省查找时间,还能提高编程效率,看起来好像真的很美好。

但GitHub的CEO的那句要把Copilot商用的未来期望马上就引来了满城风雨。

马上就有一位网友表示:

根据他们自己的说法,Github Copilot是在GPL代码的基础上训练出来的,这不就是把开源代码洗成商业产品吗。

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

而这位程序员也提到,Copilot并没有做到它说的“不会精准复制某个代码块”。

两天后,另一位网友就验证了这一说法。

在这段网友放出的视频中,只打出Fast Inverse Square Root(平方根倒数速算法)四个字,Copilot就“完美复刻”《雷神之锤3》里的那段著名的算法:

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

甚至连那句WTF的经典注释都没有放过。

随后,矛盾进一步深化。

7月3日,有开发者站出来抵制GitHub Copilot,表示自己再也不会使用GitHub来托管代码:

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

这位抵制者认为:

我不同意GitHub在未经授权和未经许可的情况下,使用受版权保护的源代码作为其Copilot产品的训练数据。该产品将受版权保护的源代码放入使用者的软件中,而不告知他们源代码的许可,这导致了对版权所有者作品的未经授权和未经许可的不当使用。

而现在,官方确认的“不顾开源许可证,以GitHub上所有开源代码来训练”这一事实,更是引爆了整个社区。

GitHub遭炮轰:Copilot“抄袭”已经失控,为训练AI侵权整个社区

现在,已经有科技公司明确表示:禁止员工使用GitHub Copilot。

参考链接:
[1]https://twitter.com/NoraDotCodes/status/1412741339771461635
[2]https://www.reddit.com/r/programming/comments/og8gxv/github_support_just_straight_up_confirmed_in_an/
[3]https://www.qbitai.com/2021/07/25969.html

版权所有,未经授权不得以任何形式转载及使用,违者必究。