Evite que los rastreadores de OpenAI raspen su sitio web con la ayuda de esta guía.
Si bien a los usuarios les encanta ChatGPT por la gran cantidad de información que contiene actualmente, no se puede decir lo mismo de los propietarios de sitios web.
ChatGPT de OpenAI utiliza rastreadores para raspar sitios web, pero si usted es propietario de un sitio web y no desea que el rastreador de OpenAI acceda a su sitio web, aquí hay algunas cosas que puede hacer para evitarlo.
¿Cómo funciona el rastreo de OpenAI?
A rastreador web (también conocido como araña o robot de motor de búsqueda) es un programa automatizado que escanea Internet en busca de información. Luego compila esa información de una manera que es fácil de acceder para su motor de búsqueda.
Los rastreadores web indexan cada página de cada URL relevante, generalmente enfocándose en los sitios web que son más relevantes para sus consultas de búsqueda. Por ejemplo, supongamos que está buscando en Google un error de Windows en particular. El rastreador web dentro de su motor de búsqueda escaneará todas las URL de los sitios web que considere más autorizados en el tema de los errores de Windows.
El rastreador web de OpenAI se llama GPTBot y, según Documentación de OpenAI, dar acceso a GPTBot a su sitio web puede ayudar a entrenar el modelo de IA para que sea más seguro y más preciso, e incluso puede ayudar a expandir las capacidades del modelo de IA.
Cómo evitar que OpenAI rastree su sitio web
Como la mayoría de los otros rastreadores web, se puede bloquear el acceso de GPTBot a su sitio web modificando el sitio web. robots.txt (también conocido como el protocolo de exclusión de robots). Este archivo .txt está alojado en el servidor del sitio web y controla cómo se comportan los rastreadores web y otros programas automatizados en su sitio web.
He aquí una breve lista de lo que robot.txt archivo puede hacer:
- Puede bloquear completamente el acceso de GPTBot al sitio web.
- Puede bloquear solo ciertas páginas de una URL para que GPTBot no acceda a ellas.
- Puede decirle a GPTBot qué enlaces puede seguir y cuáles no.
Aquí le mostramos cómo controlar lo que GPTBot puede hacer en su sitio web:
Bloquee completamente el acceso de GPTBot a su sitio web
- Configurar el archivo robot.txty luego edítelo con cualquier herramienta de edición de texto.
- Agregue el GPTBot a su sitio robots.txt como sigue:
User-agent: GPTBot
Disallow: /
Bloquear solo ciertas páginas para que GPTBot no acceda a ellas
- configurar el robot.txt y luego edítelo con su herramienta de edición de texto preferida.
- Agregue el GPTBot a su sitio robots.txt como sigue:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Sin embargo, tenga en cuenta que cambiar el robot.txt El archivo no es una solución retroactiva, y cualquier información que GPTBot ya haya recopilado de su sitio web no será recuperable.
OpenAI permite a los propietarios de sitios web excluirse del rastreo
Desde que se utilizaron rastreadores para entrenar modelos de IA, los propietarios de sitios web han estado buscando formas de mantener la privacidad de sus datos.
Algunos temen que los modelos de IA básicamente estén robando su trabajo, incluso atribuyendo menos visitas al sitio web al hecho de que ahora los usuarios obtienen su información sin tener que visitar sus sitios web.
En general, si desea bloquear completamente los chatbots de IA para que no escaneen sus sitios web, es completamente su elección.