你说ChatGPT,它写的东西逼真到分不清。
没关系!
现在,它的克星来了——
一位中国小哥就建立了这样一个网站,来鉴别文字是来自AI还是人类。
你只需要把相应的内容粘贴进去,几秒钟就能分析出结果。
例如,这一段:
它:妥妥的人类~
至于这一段:
它:我就知道是艾。
这款神器一出,可以说是迅速俘获了所有人的心。
不,只要摧毁服务器。
现在那些用ChatGPT写作业的熊孩子也会很惨吧。
是人还是ChatGPT看着我
这个网站叫GPTZero。
主要看困惑,即以文本的困惑作为指标来判断给定内容是谁写的。
NLP领域的朋友都知道,这个指标是用来评价一个语言模型的好坏的。
在这里,每当你给GPTZero输入一段测试内容,它都会单独计算:
1.词语完全混乱
价值越高,越有可能出自人手。
2.所有句子的平均困惑度。
句子越长,价值越低。
3.每个句子的混乱。
它以条形图的形式呈现你可以将鼠标悬停在每个方格上,查看对应的句子是什么
根据最新的研究,人类写出来的一些句子,混乱程度可能很低,但伴随着不断写下去,混乱程度必然会达到峰值。
相反,机器生成的文本的混乱度是均匀分布的,并且总是很低。
除此之外,GPTZero还会挑出混淆程度最高的句子:
这些是规则让我们实际测试一下
1:成功。
首先,一条最新的英语新闻:
将其粘贴到测试框中。
很快,GPTZero计算出这段话的总单词混淆度是27,平均句子混淆度是171.2。每个句子的混淆图是这样的:
而混淆程度最高的句子的值为476。
看这个结果,估计你也猜到了GPTZero的答案:
是人类写的。
答对了。
2:测试失败。
聊一聊。
将内容粘贴到测试框中,得到该段文字总混淆度为31,句子平均混淆度为76.67。每个句子的困惑程度是这样的:
而混淆程度最高的句子的值为99。
好像每个混淆值都和上面那段相差很大,应该可以猜到是AI写的。
可惜GPTZero给不了答案希望可以尝试多加几个字
显然,这段话的字数足够多,但句子还不足以让GPTZero一眼看穿ChatGPT的伪装。
测试3:成功
让我们试试另一个ChatGPT。
这次内容足够长,句子也足够多。
果然没问题。GPTZero直接说对了:
似乎摸到了一点门道:
即使单词很多,句子的数量也必须更多,至少5句,这样才能通过直方图的分布来识别GPTZero,提高最终的准确率。
此外,我们还需要提到的是,在挑战失败的情况下,除了上面的识别,还有直接的识别错误——
比如AI写的判决书是成年人写的:
把人写的新闻判断为艾的,
在这种情况下,根据上面的提示,增加更多的内容可能会把结果带回来。
中国兄弟普林斯顿出品
这个网站是由来自加拿大多伦多的22岁的中国兄弟爱德华·田创建的。
目前是美国普林斯顿CS专业大四学生,辅修认知科学和新闻学他对软件工程和机器学习有着浓厚的兴趣
现在在微软实习他在BBC,BellingCat等公司写过科学稿件,也加入了地图工具Representable的创始团队
求学期间,他来到清华大学参加为期四周的城市研究研讨会。
据他介绍,这个应用是元旦假期在一家咖啡厅完成的。
之所以要开发这个应用,只是因为ChatGPT炒作太多了人类应该知道哪些文章是AI写的
目前仍处于准系统阶段,预计未来几周内将完善模型和分析。
此外,他还透露,他正在测试学生撰写的新闻文章的数据集,并希望最终发表论文。
更多聊天杀手
其实这位小哥哥并不是唯一不喜欢ChatGPT的人其他人类组织也开发了AI文本检测器,又名ChatGPT killer
总的来说思路差不多,就是以魔法战胜魔法,用AI写的东西训练新的AI。
前阵子OpenAI自己和哈佛等大学联合打造了一个探测器:GPT—2输出探测器。
然后用这个数据集对RoBERTa模型进行微调,得到这个AI检测器其中,人类的文字全部被识别为真,AI生成的内容全部被识别为假
另一位早年的代表选手也因为这一新的发展再次被提及。
是麻省理工—IBM Watson AI实验室和哈佛NLP实验室合作开发的GLTR模型。
它主要通过文本的统计分析和可视化,用于检测与最初用于生成文本的模型相同或相似的模型目前主要支持GPT—2和BERT模型
由于输出是模型已知的所有单词的排名,因此文本中的每个单词都根据排名进行颜色编码前10个词是绿色的,前100个词是黄色的,前1000个词是红色的,紫色的词不太可能出现
如果一段文字太黄绿色,那么这段文字主要是AI生成的。
这次GPTZero再次出道,不少网友惊叹:不可思议的作品!
但也有人说文字检测器简直就是失败的军备竞赛,实际效果并不好也阻挡不了ChatGPT的发展
与此同时,也有网友讨论了文章应该由AI还是人类来写的必要性。
不过,也有网友立即表示反对为什么要设置障碍就像用了PS再加Adobe水印一样,对产品没有任何好处
你怎么看待这个问题。
试用链接:
参考链接: