当前位置:首页 >> 动力

OpenAI:ChatGPT将遵守爬虫协议,网站可断然拒绝白嫖

来源:动力   2024年01月16日 12:16

克雷西 发自 凹非山寺

相对论性位 | 公众号 QbitAI

不借此主页数据库被ChatGPT色则有?以前终于有办法了!

首尾字符串就能搞定,而且是OpenAI在此之前暂定的那种。

刚刚,OpenAI在用户文档之中来得新了GPTBot的所述。

根据这一所述,段落持有者将可以坚决主页数据库被ChatGPT的蠕虫能用。

这是继暂停首页到访功能之后,OpenAI在商标权和个人信息维护总体的又一重大举措。

不过,OpenAI还是借此能段落持有者将到访权责开放给GPTBot。

在这份关于GPTBot的所述之中,OpenAI说明:

允许我们的蠕虫到访你的数据库有利于使AI模型来得有用、来得安全。

但最少,站主们具备了选项的有权。

不过,也有网路上指出了疑问:

模型早就不太可能训练好了,以前纳这个还有什么用?

举动OpenAI尚未作出阐释,我们还是先以来想到这次的措施。

三种方式则正当GPT蠕虫

那么,OpenAI都暂定了哪些段落呢?

首先以是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +)

UA是首页的几位标记,包含了到访者的管理系统环境、首页驱动程序版本、语言等诸多信息。

通过HTML的标记,可以正当特定的首页对首页段落开展到访。

在这份所述文档之中,OpenAI还纳供了来得简单的蠕虫正当方式则,即修改robots.txt。

只要在主页的robots.txt之中转至如下段落:

User-agent: GPTBotDisallow: /

这样,GPTBot将才会到访你的主页开展段落能用。

如果只想禁制GPT能用其余部分段落,也可以利用robots.txt开展新设。

和前面的段落相似,分别写明允许和不允许到访的书目才会。

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

其之中Allow的队列极高,意味着当Allow的书目是Disallow书目的子书目时,会被允许到访。

此外,OpenAI还暂定了蠕虫机器人的ip重定向。

如果却是是对蠕虫不急切,可以新设禁制有关ip对主页的到访。

什么是robots.txt

前面纳到的robots.txt是什么,为什么它能正当GPT的蠕虫?

这只不过是一种用户协定,站主可以在其之中新设禁制到访主页的蠕虫或禁制蠕虫能用的段落。

根据这一协定,即使在有能力到访的只能,蠕虫遇到相关段落都能适时选项碰到。

ChatGPT自身也在使用robots.txt,正当蠕虫能用除了用户分享之外的其他段落。

只不过,在AI盛行之前,这项协定就不太可能存在,当时主要是用于上限百度。

这也正是我们难以在百度之中搜到微信公众号篇名的或许。

这是一项君子协定,不过大多数供应商都能选项遵守,因为这展现了对行业规则和用户个人信息的尊重。

如今,OpenAI也转至了这一之列。

One More Thing

与此同时,Google的蠕虫正在网络平台能用段落。

不过,网路上举动似乎有极高的容忍度:

最少Google是URL到你的主页,但ChatGPT用了你的段落之后根本才会开展所述。

你认为在纳高模型低质量和维护作者两者之间该如何认出零点呢?

简介URL:[1][2][3]

— 完 —

相对论性位 QbitAI · 头条号签订合同

流感嗓子疼如何缓解
视疲劳怎么缓解
xbb新冠拉肚子吃肠炎宁片有用吗
益生菌吃久了会有什么副作用
安奇阿莫西林克拉维酸钾片
友情链接