chatgpt 将推出新的网络爬虫以吞噬更多开放网络

AI资讯2年前 (2023)发布 fengdao

97 0 0

OpenAI 放出了新的网络爬虫机器人GPTBot，它的目标是通过扩充数据集来训练下一代人工智能系统，而且未来的版本似乎已经有了一个正式名称——”GPT-5″。该公司已经注册了这个商标，这暗示着一个即将推出的版本，并且让网络出版商了解如何将自己的内容排除在OpenAI巨大的语料库之外。

据OpenAI称，这个网络爬虫会从公开的网站上收集数据，并避免抓取付费、敏感和被禁止的内容。然而，就像Google、Bing和Yandex等其他搜索引擎一样，这个系统是选择性退出的——默认情况下，GPTBot会假设可访问的信息是公平的游戏。为了阻止OpenAI的网络爬虫摄取网站上的内容，网站所有者必须在服务器上的标准文件中添加”禁止”规则。

此外，OpenAI还表示，GPTBot会优先扫描抓取的数据，以删除涉及个人身份信息（PII）和违反其政策的文本。

然而，一些技术伦理学家认为，这种选择性退出的方法仍然会引发同意问题。

在Hacker News上，有些用户为OpenAI的行动进行了辩护。他们认为，如果我们希望未来拥有强大的生成人工智能工具，它就必须收集一切可能的数据。一位用户说：“他们仍然需要当前的数据，否则他们的GPT模型将永远停留在2021年9月。”而另一位更注重隐私的用户则认为：“OpenAI甚至没有进行适度引用。他们在没有引用的情况下制作了衍生作品，这很可疑。”

GPTBot的发布是在OpenAI最近受到批评之后进行的，之前OpenAI在未经授权的情况下使用了一些数据来训练ChatGPT等大型语言模型（LLM）。为了解决这些问题，该公司在四月份更新了隐私政策。

与此同时，最近的GPT-5商标申请似乎证实了OpenAI正在训练下一个模型，准备将其推向市场。新系统很可能会通过大规模的网络抓取来更新和扩展其训练数据。

这可能意味着OpenAI正在从早期强调透明度和人工智能安全性转变。考虑到ChatGPT是全球使用最广泛的大型语言模型之一，尽管市场上竞争激烈且众多，但这也不足为奇。OpenAI的旗舰产品（以及任何语言模型的产品）的好坏取决于用来训练它的数据的质量。