GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭
编辑:桃子 好困
【导读】就在刚刚,OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。 得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型!
前段时间,抓取平台用户数据风波,Reddit网友吵翻了天。
今天,OpenAI推出了一个网络爬虫工具GPTBot,能够自动抓取网站的数据。
如何使用?
OpenAI在发布的文档中表示,网络爬虫将过滤删除需要付费强访问的来源,同时也会删除个人身份信息(PII)或违反其政策的文本。
GPTBot抓取的数据,被用来训练GPT-4或GPT-5,能够提升未来人工智能系统的准确性和能力。
可通过以下代码识别该工具:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
禁止GPTBot访问
另一方面,你也可以通过将GPTBot添加到站点robots. txt,来禁止其访问网站。
这意味着,网站所有者必须自愿采取措施,禁止OpenAI对自己的网站访问,不将自己的数据用来训练。
User-agent: GPTBot
Disallow: /
自定义GPTBot访问
你还可以通过以下代码,来控制GPTBot对网站部分内容的访问。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
IP出口
对于OpenAI的爬虫,将从OpenAI网站上记录的IP地址块调用网站。
网友热议
OpenAI此举引发了网友对用于训练AI模型的网络爬虫的道德问题的讨论。
「OpenAI甚至没有适度引用。它是在制作衍生作品,却没有引用,从而掩盖了它的事实。」
网友表示,终于有机会阻止OpenAI抓取你的网络数据,来训练模型。
还有人表示,ChatGPT浏览器插件已被移除一段时间,部分原因是它可以访问付费墙后面的内容。
前段时间,OpenAI于7月18日向美国专利局提交了GPT-5的商标申请,暗示着公司正在训练更高级的AI系统。
GPTBot显然将帮助该OpenAI从互联网上收集更多数据来训练这个模型。
参考资料:
https://platform.openai.com/docs/gptbot
最后推荐下ChatGPT前沿玩法圈:
不到一个月时间,我们输出了100+内容,3大专栏内容更新了58+文章:
我会把我玩ChatGPT的经验和总结,除了我不会研发ChatGPT,其他诸如Midjourney,GPT Plus,ChatGPT PDF,ChatGPT XMind,ChatGPT PPT 会以专栏的形式在知识星球更新。
最后再说下这个星球能给大家提供什么:
1、
2、
3、
4、
5、
6、
7、
8、
9、加入星球的小伙伴,都有两项额外福利,可以免费获得ChatGPT普通号“独享”账号一个,支持改密码。
ChatGPT的使用方法,最新资讯,商业价值。
2、
一些副业思考、创业案例、落地案例分享。
3、
探讨未来关于ChatGPT的机遇,帮助大家解决遇到的问题。
4、
剖析和拆解ChatGPT不同的前沿玩法。
5、
围绕ChatGPT玩法的变现方式和技巧。
6、
围绕ChatGPT提高工作效率。
7、
第一时间了解ChatGPT最新版本的发布特性和强超能力
8、
掘挖ChatGPT玩法,助力们我的事业,工作,和日常生活
9、加入星球的小伙伴,都有两项额外福利,可以免费获得ChatGPT普通号“独享”账号一个,支持改密码。
陆续更新中…
其它福利还在筹划中… 不过,我给你大家保证,加入星球后,收获的价值会远远大于今天加入的门票费用 !“早”就是优势,建议大家尽早以便宜的价格加入!
阅读原文 最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。