OpenAI 放出了新的网络爬虫机器人GPTBot,它的目标是通过扩充数据集来训练下一代人工智能系统,而且未来的版本似乎已经有了一个正式名称——”GPT-5″。该公司已经注册了这个商标,这暗示着一个即将推出的版本,并且让网络出版商了解如何将自己的内容排除在OpenAI巨大的语料库之外。
据OpenAI称,这个网络爬虫会从公开的网站上收集数据,并避免抓取付费、敏感和被禁止的内容。然而,就像Google、Bing和Yandex等其他搜索引擎一样,这个系统是选择性退出的——默认情况下,GPTBot会假设可访问的信息是公平的游戏。为了阻止OpenAI的网络爬虫摄取网站上的内容,网站所有者必须在服务器上的标准文件中添加”禁止”规则。
此外,OpenAI还表示,GPTBot会优先扫描抓取的数据,以删除涉及个人身份信息(PII)和违反其政策的文本。
然而,一些技术伦理学家认为,这种选择性退出的方法仍然会引发同意问题。
在Hacker News上,有些用户为OpenAI的行动进行了辩护。他们认为,如果我们希望未来拥有强大的生成人工智能工具,它就必须收集一切可能的数据。一位用户说:“他们仍然需要当前的数据,否则他们的GPT模型将永远停留在2021年9月。”而另一位更注重隐私的用户则认为:“OpenAI甚至没有进行适度引用。他们在没有引用的情况下制作了衍生作品,这很可疑。”
GPTBot的发布是在OpenAI最近受到批评之后进行的,之前OpenAI在未经授权的情况下使用了一些数据来训练ChatGPT等大型语言模型(LLM)。为了解决这些问题,该公司在四月份更新了隐私政策。
与此同时,最近的GPT-5商标申请似乎证实了OpenAI正在训练下一个模型,准备将其推向市场。新系统很可能会通过大规模的网络抓取来更新和扩展其训练数据。
这可能意味着OpenAI正在从早期强调透明度和人工智能安全性转变。考虑到ChatGPT是全球使用最广泛的大型语言模型之一,尽管市场上竞争激烈且众多,但这也不足为奇。OpenAI的旗舰产品(以及任何语言模型的产品)的好坏取决于用来训练它的数据的质量。