人工智能chatgpt4.0数据分析 14款AI检测软件均不靠谱？手动微调ChatGPT内容之后竟能蒙混过关

AI资讯2年前 (2023)发布 fengdao

87 0 0

德国柏林技术与经济应用科学大学的媒体和计算教授黛博拉·韦伯·伍尔夫（ Weber Wulff）与来自多所大学的一组研究人员合作，评估了包括、GPT Zero 和在内的 14 种检测工具，它们都声称具备检测编写的文本的能力。

这些工具中的大多数都是通过寻找人工智能生成文本的特征来工作的，然后计算该文本由人工智能生成的概率。但该团队发现，所有接受测试的工具都很难找到生成的文本，因为这些文本都被人类重新排列并被转述工具加工过。这表明，学生只需要稍微调整人工智能生成的文章，就可以通过检测工具。

“这些工具不起作用，”韦伯·伍尔夫说，“它们无法实现它们被创造出来的目的，也不是人工智能的探测器。”

研究人员通过撰写土木工程、计算机科学、经济学、历史学、语言学和文学等多个学科的本科生论文来评估这些工具。他们自己撰写论文是为了确保网上找不到这些文本，不然可能已经被拿来训练了。

然后，每位研究人员用波斯尼亚语、捷克语、德语、拉脱维亚语、斯洛伐克语、西班牙语或瑞典语又写了一篇。这些文本会通过人工智能翻译工具 DeepL 或谷歌翻译翻译成英语。

然后，该团队使用生成了两份文本，每份都经过了轻微的调整，以隐藏它是人工智能生成的。其中一组是由研究人员手动编辑的，他们重新排列句子并替换单词，而另一组是使用名为的人工智能转述工具重写的。最终，他们获得了 54 份文件来测试检测工具。

人工智能数据报告_人工智能相关数据报告_人工智能chatgpt4.0数据分析

他们发现，虽然这些工具善于识别人类书写的文本（平均准确率为 96%），但在识别人工智能生成的文本时，尤其是编辑过的文本时，它们的表现更差。

尽管这些工具识别文本的准确率为 74%，但当生成的文本经过稍微调整后，准确率降至 42%。

南澳大利亚大学构建机器学习和人工智能模型的高级讲师维托米尔·科瓦诺维奇（ ć）表示，这类研究也突显了大学目前评估学生学业的方法是多么过时。他没有参与该项目。

谷歌专门研究自然语言生成的高级研究科学家达芙妮·伊波利托（）也没有参与该项目，她提出了另一个担忧。

她说：“如果要在教育环境中使用自动检测系统，了解其误报率至关重要，因为错误地指责学生作弊可能会对他们的学术生涯产生可怕的后果。假阴性率也很重要，因为如果太多人工智能生成的文本被识别为人类撰写的，检测系统就没有用处了。”

是研究人员测试的工具之一。该工具的开发者称，重要的是要记住该系统只会指出可疑段落，也就是将其归类为潜在的剽窃或可能由人工智能生成的内容。

人工智能相关数据报告_人工智能chatgpt4.0数据分析_人工智能数据报告

的一位发言人表示：“文本的作者（学生）是否真正学到了知识，取决于学校和评分的老师，他们可以采取额外的验证手段，比如口头提问、在受控的课堂环境中提出额外的问题等等。”

发言人补充道：“通过这种方式，工具可以成为教学方法的一部分，鼓励学生学习好的研究、写作和引用实践。软件是一种纠正辅助工具，而不是纠正者。” 和 GPT Zero 没有立即回应置评请求。

我们早就知道，用于检测人工智能生成文本的工具并不总能按照预期的方式工作。2023 年早些时候，推出了一款旨在检测生成的文本的工具，但承认它只能将 26% 的人工智能文本标记为“可能是人工智能书写的”。它警告说，旨在检测人工智能生成内容的工具“远非万无一失”。

然而，马里兰大学助理教授汤姆·戈尔茨坦（Tom ）表示，这些失败并没有阻止公司推出号称能胜任这项工作的产品。他没有参与这项研究。

他补充道：“其中许多工具都不是特别准确的，但也不意味着完全的灾难。”他指出，以相当低的假阳性率成功地实现了一定程度的检测准确性。人工智能初创公司 Face 的研究员萨沙·卢西奥尼（Sasha ）表示，尽管揭示所谓人工智能文本检测系统缺点的研究非常重要，但将这项研究的范围扩大到之外的人工智能工具将更有帮助。

对于科瓦诺维奇来说，试图分辨人工智能生成内容的这个想法本身是有缺陷的。他说：“不要试图检测人工智能，要做出一些改变，从而让人工智能的使用变得不再是问题。”

支持：Ren