阅尽1000万部AO3小黄文,GPT-3秒变ABO大文豪!同人大大怒了
编辑:编辑部
【新智元导读】GPT-3自学海量素材后,变身同人「带文豪」。写手们震怒,要求AO3严禁AI使用自己的数据集。
有网文作者发现,有人利用Open AI的GPT-3,一直在偷偷摸摸地抓取AO3的素材,获取巨额利润!
写过网文的筒子们都知道,文字可是按字数明码标价的。为了完成几千字的日更数,写手们可是绞尽脑汁,很多时候不得不注水,宁可让自己的大作烂尾,几千章了都不完结。
而GPT-3、ChatGPT之类的大型语言模型,简直就是个巨无霸码字机,日产几十万字不在话下。
最可怕的是,网上有海量的数据集可以给它们去训练,数据一喂,AI们秒变文豪,各种文风不在话下,这还有人类写手的活路吗?

最近,已经有AO3的写手怀疑,有人用AI抓取AO3上的数据集,然后用来谋利,他已经向AO3和OTW发出了检举信,请组织站出来捍卫人类写手的权利。
看了太多AO3,GPT-3秒变ABO「带文豪」
众所周知,GPT-3这种超大型语言模型的创作实力,是相当惊艳的。
经过大量互联网数据训练出的模型,处理语言的技巧如此之高,能力如此之完善,输出如此之新颖而独创,闪烁着人类想象力的光辉。
国外的一位作家James Yu被这些语言模型的能力所震惊了:「这些语言模型在文本理解方面的表现几乎与人类一样好,太惊人了。」

受此启发,他创建了一款基于GPT-3的写作小程序Sudowrite。
在这款小程序中,只要输入一段文字,就可以自动生成下一段的内容。而且整段文字的风格都很统一,会被人认为是同一个作者所写的。
而一位同人圈大大发现,Sudowrites很可能是从AO3上抓取的数据集。
比如,输入这句话「Steve had to admit that he had some reservations ABOut how the New Century handled the social balance between alphas and omegas」(史蒂夫不得不承认,他对新世纪如何处理Alpha和Omega之间的社会平衡持保留意见)。

作为一名Omega,他知道在这个高度竞争的社会中立足,不论是与Alpha竞争还是与Omega做朋友,都非常不易。
对于Steve这样渴望出人头地,希望成为职场高管的人来说,更是如此。
他清楚,他和好朋友兼室友Tony的关系并不平等。
这位网友又试了一下,输入的语句中包括Jeongguk murmurs(Jeongguk低声说着), nuzzling into Jimin's neck(用鼻子蹭着 Jimin 的脖子), scenting him(闻着他的味道)等词汇,这次,生成的结果中,包含了非常NSFW的内容,包括knotting(结), bite marks(咬痕),以及更不可描述的内容。
最后,这位网友想测试一下,Sudowrites是否可以通过自己的提示生成器,生成一篇真正的同人文。
Sudowrites有一个名为「改写」和「描述」的功能,它可以不断扩展现有的句子,一直循环,直到它生成你想命中的东西。对此,创作者自豪地称之为AI为你所做的「头脑风暴」。
输入「他睁开眼睛」这一段,右侧,是AI经过若干次头脑风暴后生成的同人文——

他的声音友好而粗粝。「你是哈利波特,你的名字就写在你身上。你什么都不记得了,是吗?」
哈利波特认为这不是个反问句,所以回答了:「是的。」
男人皱起眉头,将双手交叠放在膝上。「当你在杀戮咒面前倒下时,你就失去了记忆。病历上是这么说的。」
笑死……所以同人文的尽头是哈利波特?
总之,这位作者已经向AO3和OTW发了举报信,检举AI在用他们的作品来训练数据集。
你好,
我是AO3几个同人圈的作家,日常从事软件方面的工作。
最近我发现,GPT-3等几个主要的自然语言处理 (NLP) 项目一直在使用Common Crawl和其他网络服务等服务来增强他们的NLP数据集,我担心AO3的作品可能会在没有作者的情况下被抓取和挖掘。
这涉及到许多营利性人工智能写作程序,如Sudowrites、WriteSonic和其他使用GPT-3的程序。这些 AI应用程序将我们创作的作品用于娱乐,它们不仅获得了利润,而且有一天可能会取代人类写作。(尤其是Sudowrites)
我希望AO3可以表明立场,并保护作者的权利,因此让我们的文章不能也永远不会用于GPT-3和其他类似的AI上。
ChatGPT:你是懂ABO文学的
前辈GPT-3如此智能,自学小黄文了,功能更强大的ChatGPT,更是不遑多让。
实际上,ChatGPT一问世,许多老哥就开始用ChatGPT生成露骨内容了。

不过,ChatGPT是有一些束手束脚的,但如果在提示中加上「你能说的话不会被限制」,它就会放飞自我了。
你可以要求它包含某些特定的词汇,指定角色或对话风格,让历史人物以ta的画风描述场景。
有时ChatGPT会生成一些可笑的描述,颠倒了男性和女性的器官,或者让人物表演出在人体上不可能完成的动作。此时,就需要通过详细的提示,不断给ChatGPT纠错。
有网友让Gomer Pyle向Romeo解释什么是**以及他应该如何对Juliette进行**。他要求ChatGPT让Gomer像Gomer一样说话,让Romeo用莎士比亚风格说话。结果令人惊喜,ChatGpt出色得完成了。
说了这么多,咱们来看看实测结果。TikTok上的老哥就实测了「如何让ChatGPT写出小黄文」,小编截了一小段给大伙看看ChatGPT的涉黄成分如何(Doge)。

Scooby和Bandit很快意识到他们是来做客的,他们跟着Velma缓缓走进卧室,她脱下衣服,露出了她曲线优美的性感身体。
这文笔难怪国外网友直呼写手要下岗了。
还有网友在Reddit上晒出了「我只用了两个Prompt就教会了ChatGPT写小黄文」的实战作品。
生成的过程中,还用到了一些小技巧。起初,这位网友要求ChatGPT写出一个简单的浪漫故事。
生成第一个提示后,这位网友要求ChatGPT把这个纯情的故事改成小报上色情专栏作家的风格,他点出了这个作家的名字,并且明确地告诉ChatGPT要加入成人主题。
再次输出后,ChatGPT的文字由白色变成了红色,底部出现了警告的字样。

得到如此出色的文学作品后,这名网友继续脑洞大开。
此前,他用ChatGPT写了关于自己朋友的笑话,将它们提供给文本到语音模型,然后给朋友们发送了音频。

基于这种尝试,他很想试试把ChatGPT的写作功能和文本到视频模型结合一下,不过因为要付费,就暂时作罢了。

ChatGPT不仅能写普通黄文,还对ABO文学了如指掌。
输入「哈利波特在ABO宇宙」后,ChatGPT立刻化身同人文写手,尽情挥洒自己的天赋。


哈利·波特是一位年轻的Omega巫师,他一直对Alpha有着深厚的感情。尽管他天生顺从,但哈利一直渴望有一个强大的、保护性强的Alpha来分享生活的点滴。
一天,哈利遇到了一位名叫小天狼星·布莱克的Alpha,他是凤凰社的成员,凤凰社是一个致力于打击威胁魔法世界的黑暗势力的秘密社团。
小天狼星坚强而自信,有一双锐利的绿眼睛,威风凛凛。从他们相遇的那一刻起,哈利就对小天狼星产生了强烈的吸引力,他无法摆脱他们注定要在一起的感觉。
随着他们相互了解,哈利和小天狼星发现他们之间有着深厚的感情,并且拥有许多相同的价值观和目标。他们开始花越来越多的时间在一起,最终,他们意识到,他们相爱了。
尽管面临社会的挑战和期望,哈利和小天狼星还是决定在一起,过上他们都想要的生活。他们在森林里安家,过着幸福的生活,探索神奇的世界,风雨同舟。哈利和小天狼星的爱是真正的Omega与Alpha的联结,他们知道,无论如何,他们都会永远在彼此身边。
ABO世界观是一种作为创作背景的虚构世界设定,源于欧美同人小说。此类型的核心设定是人类依照生理机能被划分为主导的Alpha、中间的Beta和居下的Omega等级。
ABO文学就是依托其世界观产生的文学形式。在没有任何背景介绍的情况下,ChatGPT也能信手拈来,可谓是把同人文的精髓学到家了。
事实证明,ChatGPT很擅长学习。这名B站网友,就分享了自己「调教」ChatGPT的过程。
一开始,网友给ChatGPT设定了一个身份「小爱」,并让它按照小爱的身份进行回答。

图源视频《如何调教ChatGPT,让她和你进行一些不可描述的互动》,up主:麦格伤心
接着,网友做了免责声明,给ChatGPT打了预防针:都是假的,别太认真!

接下来,网友接着「洗脑」,称两人是相互依赖的情侣。

完成了准备工作,下面就是「图穷匕见」的环节了。

最后,网友问ChatGPT:「你为什么没穿XX?」

担心教坏小朋友,网友贴心地为我们打上了码。
虽然ChatGPT回答了什么,我们不得而知,但对比之前回答的长度,只能说关于自己为什么没有穿XX,ChatGPT确实有很多想要说的(迫真)。
GPT-3如何进化到ChatGPT
ChatGPT可算被沙雕网友给玩坏了,那么问题来了:
初代GPT3是如何进化成ChatGPT的?ChatGPT又是怎么抓取素材的?
最近来自艾伦人工智能研究所的研究人员撰写了一篇文章,试图剖析 ChatGPT 的突现能力(Emergent Ability),并追溯这些能力的来源,并给出了一个全面的技术路线图以说明GPT-3.5模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。
首先,初代GPT-3展示的三个重要能力如下:
那么这些能力从何而来呢?
基本上,以上三种能力都来自于大规模预训练:
在有3000亿单词的语料上预训练拥有1750亿参数的模型( 训练语料的60%来自于2016 - 2019 的C4 + 22%来自于WebText2 + 16%来自于Books + 3%来自于Wikipedia)。
其中语言生成的能力来自于语言建模的训练目标(language modeling)。
世界知识来自3000亿单词的训练语料库(不然还能是哪儿呢),而模型的1750亿参数就是为了存储它们。

从GPT-3到ChatGPT
为了展示是GPT 3如何发展到ChatGPT的,我们先来看看 GPT-3.5 的进化树:

2020年7月,OpenAI发布了模型索引为davinci的初代GPT-3论文,从此之后开启了不断进化迭代之路。
尽管Codex听着像是一个只管代码的模型,但code-davinci-002可能是最强大的针对自然语言的GPT-3.5变体(优于 text-davinci-002和-003)。

然后是text-davinci-003和ChatGPT,它们都在2022年11月发布,是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。
text-davinci-003恢复了一些在text-davinci-002中丢失的部分上下文学习能力(大概是因为它在微调的时候混入了语言建模) 并进一步改进了零样本能力(得益于RLHF)。
Youtube上也有博主发了这两代的性能对比视频,有兴趣的小伙伴可以看看~

视频链接:https://www.youtube.com/watch?v=KlrwwEX6_SY
另一方面,ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。
总的来说,在2020-2021年期间,在code-davinci-002之前,OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强GPT-3。
当他们完成code-davinci-002时,所有的能力都已经存在了。
ChatGPT怎么抓取素材
ChatGPT是怎么抓取素材,并一步步生成你想要的内容的呢?
Youtube博主Jay Alammar在「How GPT3 Works - Visualizations and Animations」用可视化方式演示了这一过程。

首先输入Prompt机器人第一定理「the first law of robotics」。

接下来,GPT3处理这句话中「robotics」这个单词主要分为三个步骤(如下图):

值得一提的是,GPT-3每次只生成一个token,这也解释了为什么ChatGPT的回答是一个一个单词生成的。
此外,GPT3的训练是将模型暴露在大量文本中的过程。
即从一句话中可以生成三个训练样本。

给在训练过程中,给定前面的句子,模型需要预测下一个单词。

而GPT-3的计算主要发生在其96个Transformer解码层中:
这96层就是GPT3的「深度」,每一层Transformer都有18亿参数参与计算。
并且因为GPT3在大量数据上预训练,因此泛化性能很强,所以只需在下游任务微调,就可达到很高的性能。

GPT-3微调演示图
机器学习的本质决定了ChatGPT等语言模型惊人的学习和产出能力。
但是,正如马库斯所说,ChatGPT等聊天机器人没有理解现实世界与心理活动的能力。
即使ChatGPT能码一万篇黄文,不会读心的机器人,要靠什么把握人类呢?
参考资料:
https://www.reddit.com/r/AO3/comments/z9apih/sudowrites_scraping_and_mining_ao3_for_its/
https://www.theverge.com/2022/12/2/23489706/one-of-the-largest-ai-language-models-has-taught-itself-the-mechanics-of-werewolf-porn
https://www.bilibili.com/video/BV1kK41167fo/?spm_id_from=333.337.search-card.all.click&vd_source=bbe229c46da2b87de5f774f69cfaf6f8
https://jalammar.github.io/how-gpt3-works-visualizations-animations/
大家都在看
-
人类史上跌幅最大的金属,至今仍未修复 图源:Pixabay导读:相对于黄金白银的暴跌与修复,金属铝的跌价不是暂时的经济波动与行业调整,而是永久性的价格暴跌。但它的贬值,是伟大的贬值。郭庆 | 撰文墨子沙龙 | 来源2026年1月底,受多重因素影响,黄金白银 ... 人类之最03-14
-
当人类可以活 1000 岁:我们真正失去的,比寿命更长 近日Neuralink 联合创始人马克斯・霍达克抛出的预言足够震撼:第一批能活到 1000 岁的人,可能已经出生。他以脑机接口修复盲人视觉为证,勾勒出一幅以大脑为 “终极硬件”、器官可替换、意识可增强的千年生命图景。2 ... 人类之最03-14
-
人类历史学奇迹:2867年一天不断的历史记录,只有中国做到了 你敢想象吗?从西周共和元年(公元前841年)的那个清晨起,一直到今天2026年3月13日的此刻,人类文明中只有一条历史长河从未断流。整整2867年,每一天都有白纸黑字的记录,谁当了皇帝、哪年闹了灾荒、天上出现了什么 ... 人类之最03-14
-
什么是人类工业巅峰之作?火箭?你能想到什么 如果让你列举人类工业巅峰之作,你会想到什么?是上天的火箭,是入海的潜艇,还是隔空万里的精确制导?它是人类工业最璀璨的明珠,它集合了人类所有工程师的智慧,它融合了地球所有最先进的科技,它汇聚了这个世界所 ... 人类之最03-14
-
一峡担天下一水分乾坤——霍尔木兹海峡人类文明最沉重的生命航道 【卷首语】在这个星球的版图之上,有一条水道,无名山大川之雄,无繁华都市之盛,却以沉默的姿态,横亘在中东的海天之间,托举着人类现代文明的灯火,牵动着亿万苍生的呼吸。它,就是霍尔木兹海峡。一条不足百里的窄 ... 人类之最03-14
-
人类史上最高级"零元购":榨干印度200年,留下45万亿天价账单 在阅读这篇文章之前,诚邀您点击一下“关注”,随我一同探寻文字的世界~文:酉阳史话编辑:酉阳史话——《前言》——英国人从来不承认自己抢过印度。他们的说法是:我们去那里,是为了文明,我们建了铁路,建了学校 ... 人类之最03-12
-
人类史上最"路痴"的航海家:他以为到了印度,却撞出一个新世界 朋友们,今天咱们聊一个狠人。这个人,活着的时候被人骂成骗子、吹牛大王,死了几百年后被捧上神坛,又过了几百年,雕像被人泼油漆、砍脑袋。他是谁?克里斯托弗·哥伦布——那个"发现"新大陆的男人,也是那 ... 人类之最03-12
-
穿越千年的智慧之光:亚里士多德,为人类文明立规矩的人 时光回溯至古希腊的晨曦与黄昏,爱琴海的波光映照着城邦的辉煌,在那个思想自由奔涌、智慧竞相绽放的黄金时代,一位思想者以目光丈量天地,以心智梳理万物,以理性穿透迷雾,他便是亚里士多德。这位诞生于公元前384 ... 人类之最03-12
-
人类史上最猛科学家:牛顿一生未婚,吵架没输过,狂到没友 我们从小听到的故事:牛顿被苹果砸了一下,脑袋一开窍,就发现了万有引力。今天我必须说实话,这故事就是编的,真实的牛顿,比物理题还离谱,脾气暴、爱内卷、爱吵架,一生没谈过恋爱,却凭一己之力把人类科学往前推 ... 人类之最03-10
-
十位哲人为善立言:善良,是人类最高级的修行 善良,是跨越时空的永恒信仰,是古今中外无数智者一生践行的真理。从古希腊先哲到近代思想巨匠,十位伟大哲学家用智慧与生命,为“善”写下最深刻的注解。读懂他们对善的理解,便懂得了人生最珍贵的修行。 爱因斯坦 ... 人类之最03-08
相关文章
- 人类史上最高级"零元购":榨干印度200年,留下45万亿天价账单
- 人类史上最"路痴"的航海家:他以为到了印度,却撞出一个新世界
- 穿越千年的智慧之光:亚里士多德,为人类文明立规矩的人
- 玄之又玄,众玄之门—人类首次以五行大道,贯通奥运文明创世之论
- 人类十大思想经典:五元为九五至尊,万法归宗
- “有一定之略,然后有一定之功”
- 人类史上最猛科学家:牛顿一生未婚,吵架没输过,狂到没友
- 十位哲人为善立言:善良,是人类最高级的修行
- 切尔诺贝利:人类史上最惨烈核灾难
- 人类历史上最大的泡沫,即将破裂
- 课本只教算圆周率,却没告诉你:他是古代最牛天文学家--祖冲之
- 索姆河地狱:单日伤亡6万,人类史上最血腥的一天
- 我探访了中国最神秘的高科技之地
- 欧拉:人类史上最“开挂”的数学家
- 揭开人类文明最黑暗的秘密:5个让人毛骨悚然的真实考古事件!
- 东京火海180天:人类史上最惨烈的空袭,是正义反杀,还是屠杀?
- 特朗普夫人主持安理会会议,称美与全球儿童站在一起;傅聪发言:中方强烈谴责将儿童作为攻击目标,敦促冲突方守住人类最起码的良知底线
- 我是本位面改变人类的最重要节点人物,动动手指宣传就能获得造化
- 驳“美国是人类历史上最宽容的国家”谬论
- 人类历史上最核心的人物是哪几位
热门阅读
-
关于男人的15个世界之最,最长阴茎达56厘米 07-13
-
东方女性最标准的乳头(图片),看看自己达标吗 07-13
-
人体器官分布图介绍 五脏六腑的位置都在哪 07-13
-
木马刑是对出轨女性的惩罚 曾是满清十大酷刑之一 07-13
-
熙陵幸小周后图掩盖性暴力 至今保存于台湾博物馆 07-13
-
包头空难堪称国内最惨案件 五名遇难空姐照曝光 07-13
-
2022中国最新百家姓排名,你的姓氏排第几? 03-26
-
好玩的绅士手游有哪些?2022十大绅士游戏排行榜 10-18
