OpenAI：ChatGPT将遵守爬虫协议，网站可断然拒绝白嫖

来源：动力 2024年01月16日 12:16

克雷西发自凹非山寺

相对论性位 | 公众号 QbitAI

不借此主页数据库被ChatGPT色则有？以前终于有办法了！

首尾字符串就能搞定，而且是OpenAI在此之前暂定的那种。

刚刚，OpenAI在用户文档之中来得新了GPTBot的所述。

根据这一所述，段落持有者将可以坚决主页数据库被ChatGPT的蠕虫能用。

这是继暂停首页到访功能之后，OpenAI在商标权和个人信息维护总体的又一重大举措。

不过，OpenAI还是借此能段落持有者将到访权责开放给GPTBot。

在这份关于GPTBot的所述之中，OpenAI说明：

允许我们的蠕虫到访你的数据库有利于使AI模型来得有用、来得安全。

但最少，站主们具备了选项的有权。

不过，也有网路上指出了疑问：

模型早就不太可能训练好了，以前纳这个还有什么用？

举动OpenAI尚未作出阐释，我们还是先以来想到这次的措施。

三种方式则正当GPT蠕虫

那么，OpenAI都暂定了哪些段落呢？

首先以是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +)

UA是首页的几位标记，包含了到访者的管理系统环境、首页驱动程序版本、语言等诸多信息。

通过HTML的标记，可以正当特定的首页对首页段落开展到访。

在这份所述文档之中，OpenAI还纳供了来得简单的蠕虫正当方式则，即修改robots.txt。

只要在主页的robots.txt之中转至如下段落：

User-agent: GPTBotDisallow: /

这样，GPTBot将才会到访你的主页开展段落能用。

如果只想禁制GPT能用其余部分段落，也可以利用robots.txt开展新设。

和前面的段落相似，分别写明允许和不允许到访的书目才会。

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

其之中Allow的队列极高，意味着当Allow的书目是Disallow书目的子书目时，会被允许到访。

此外，OpenAI还暂定了蠕虫机器人的ip重定向。

如果却是是对蠕虫不急切，可以新设禁制有关ip对主页的到访。

什么是robots.txt

前面纳到的robots.txt是什么，为什么它能正当GPT的蠕虫？

这只不过是一种用户协定，站主可以在其之中新设禁制到访主页的蠕虫或禁制蠕虫能用的段落。

根据这一协定，即使在有能力到访的只能，蠕虫遇到相关段落都能适时选项碰到。

ChatGPT自身也在使用robots.txt，正当蠕虫能用除了用户分享之外的其他段落。

只不过，在AI盛行之前，这项协定就不太可能存在，当时主要是用于上限百度。

这也正是我们难以在百度之中搜到微信公众号篇名的或许。

这是一项君子协定，不过大多数供应商都能选项遵守，因为这展现了对行业规则和用户个人信息的尊重。

如今，OpenAI也转至了这一之列。

One More Thing

与此同时，Google的蠕虫正在网络平台能用段落。

不过，网路上举动似乎有极高的容忍度：

最少Google是URL到你的主页，但ChatGPT用了你的段落之后根本才会开展所述。

你认为在纳高模型低质量和维护作者两者之间该如何认出零点呢？

简介URL：[1][2][3]

— 完 —

相对论性位 QbitAI · 头条号签订合同

流感嗓子疼如何缓解
视疲劳怎么缓解
xbb新冠拉肚子吃肠炎宁片有用吗
益生菌吃久了会有什么副作用
安奇阿莫西林克拉维酸钾片

上一篇：保险金信托覆盖面攀升大单频现 507万户高净值人群如何借力撬动财富杠杆？

下一篇： DNF：五大第一男鬼剑，选择难以置信的一致，都是攻速出血流