¿Le preocupa que los chatbots de IA raspen su sitio web en busca de contenido? Afortunadamente, puedes bloquearlos para que no lo hagan. Así es cómo.

Tal como están las cosas, los chatbots de IA tienen una licencia gratuita para raspar su sitio web y usar su contenido sin su permiso. ¿Le preocupa que su contenido sea raspado por tales herramientas?

La buena noticia es que puede evitar que las herramientas de IA accedan a su sitio web, pero hay algunas advertencias. Aquí, le mostramos cómo bloquear los bots usando el archivo robots.txt para su sitio web, además de los pros y los contras de hacerlo.

¿Cómo acceden los chatbots de IA a su contenido web?

Los chatbots de IA se entrenan utilizando múltiples conjuntos de datos, algunos de los cuales son de código abierto y están disponibles públicamente. Por ejemplo, GPT3 se entrenó utilizando cinco conjuntos de datos, según un trabajo de investigación publicado por OpenAI:

  1. Common Crawl (60% peso en entrenamiento)
  2. WebText2 (22% peso en entrenamiento)
  3. instagram viewer
  4. Libros1 (8% peso en entrenamiento)
  5. Libros2 (8% peso en entrenamiento)
  6. Wikipedia (3% peso en entrenamiento)

Rastreo común incluye petabytes (miles de TB) de datos de sitios web recopilados desde 2008, de manera similar a cómo el algoritmo de búsqueda de Google rastrea el contenido web. WebText2 es un conjunto de datos creado por OpenAI, que contiene aproximadamente 45 millones de páginas web vinculadas desde publicaciones de Reddit con al menos tres votos a favor.

Entonces, en el caso de ChatGPT, el bot de IA no accede ni rastrea sus páginas web directamente, al menos todavía no. Aunque, OpenAI anuncio de un navegador web alojado en ChatGPT ha expresado su preocupación de que esto podría estar a punto de cambiar.

Mientras tanto, los propietarios de sitios web deben estar atentos a otros chatbots de IA, ya que más de ellos llegan al mercado. Bard es el otro gran nombre en el campo, y se sabe muy poco sobre los conjuntos de datos que se utilizan para entrenarlo. Obviamente, sabemos que los robots de búsqueda de Google rastrean constantemente las páginas web, pero esto no significa necesariamente que Bard tenga acceso a los mismos datos.

¿Por qué están preocupados algunos propietarios de sitios web?

La mayor preocupación para los propietarios de sitios web es que los bots de IA como ChatGPT, Bard y Bing Chat devalúan su contenido. Los bots de IA utilizan el contenido existente para generar sus respuestas, pero también reducen la necesidad de que los usuarios accedan a la fuente original. En lugar de que los usuarios visiten sitios web para acceder a la información, simplemente pueden hacer que Google o Bing generen un resumen de la información que necesitan.

Cuando se trata de chatbots de IA en búsquedas, la gran preocupación para los propietarios de sitios web es la pérdida de tráfico. En el caso de Bard, el bot de IA rara vez incluye citas en sus respuestas generativas, diciendo a los usuarios de qué páginas obtiene su información.

Entonces, además de reemplazar las visitas al sitio web con respuestas de IA, Bard elimina casi cualquier posibilidad de que el sitio web de origen reciba tráfico, incluso si el usuario desea más información. Bing Chat, por otro lado, más comúnmente vincula a fuentes de información.

En otras palabras, la flota actual de herramientas de IA generativa son utilizando el trabajo de los creadores de contenido para reemplazar sistemáticamente la necesidad de creadores de contenido. Al final hay que preguntar qué incentivo deja esto a los propietarios de sitios web para seguir publicando contenido. Y, por extensión, ¿qué sucede con los bots de IA cuando los sitios web dejan de publicar el contenido del que dependen para funcionar?

Cómo bloquear bots de IA de su sitio web

Si no desea que los bots de IA usen su contenido web, puede bloquearlos para que no accedan a su sitio usando el robots.txt archivo. Desafortunadamente, debe bloquear cada bot individual y especificarlos por nombre.

Por ejemplo, el bot de Common Crawl se llama CCBot y puede bloquearlo agregando el siguiente código a su archivo robots.txt:

Agente de usuario: CCBot
No permitir: /

Esto impedirá que Common Crawl rastree su sitio web en el futuro, pero no eliminará los datos ya recopilados de rastreos anteriores.

Si le preocupa que los nuevos complementos de ChatGPT accedan a su contenido web, OpenAI ya ha publicado instrucciones para bloquear su bot. En este caso, el bot de ChatGPT se llama ChatGPT-User y puedes bloquearlo agregando el siguiente código a tu archivo robots.txt:

Agente de usuario: ChatGPT-User
No permitir: /

Sin embargo, bloquear los robots de inteligencia artificial de los motores de búsqueda para que no rastreen su contenido es otro problema. Como Google es muy reservado con respecto a los datos de entrenamiento que utiliza, es imposible identificar qué bots necesitará bloquear y si incluso respetarán los comandos en su robots.txt archivo (muchos rastreadores no lo hacen).

¿Qué tan efectivo es este método?

Bloqueo de bots de IA en su robots.txt El archivo es el método más efectivo actualmente disponible, pero no es particularmente confiable.

El primer problema es que debe especificar cada bot que desea bloquear, pero ¿quién puede realizar un seguimiento de cada bot de IA que llega al mercado? El siguiente problema es que los comandos en su robots.txt archivo son instrucciones no obligatorias. Si bien Common Crawl, ChatGPT y muchos otros bots respetan estos comandos, muchos bots no lo hacen.

La otra gran advertencia es que solo puede bloquear los bots de IA para que no realicen rastreos futuros. No puede eliminar datos de rastreos anteriores ni enviar solicitudes a empresas como OpenAI para borrar todos sus datos.

Desafortunadamente, no existe una forma sencilla de bloquear el acceso de todos los bots de IA a su sitio web, y bloquear manualmente cada bot individual es casi imposible. Incluso si se mantiene al día con los últimos bots de IA que se desplazan por la web, no hay garantía de que todos se adhieran a los comandos en su robots.txt archivo.

La verdadera pregunta aquí es si los resultados valen la pena el esfuerzo, y la respuesta corta es (casi seguro) no.

También existen desventajas potenciales al bloquear los bots de IA de su sitio web. Sobre todo, no podrá recopilar datos significativos para probar si herramientas como Bard están beneficiando o perjudicando su estrategia de marketing de búsqueda.

Sí, puede suponer que la falta de citas es dañina, pero solo está adivinando si le faltan los datos porque bloqueó el acceso de los bots de IA a su contenido. Era una historia similar cuando Google presentó por primera vez fragmentos destacados buscar.

Para consultas relevantes, Google muestra un fragmento de contenido de páginas web en la página de resultados, respondiendo a la pregunta del usuario. Esto significa que los usuarios no necesitan hacer clic en un sitio web para obtener la respuesta que buscan. Esto causó pánico entre los propietarios de sitios web y los expertos en SEO que confían en generar tráfico a partir de consultas de búsqueda.

Sin embargo, el tipo de consultas que desencadenan fragmentos destacados son generalmente búsquedas de bajo valor como "qué es X" o "cómo está el tiempo en Nueva York". Cualquiera que quiera información detallada o un informe meteorológico completo seguirá haciendo clic, y aquellos que no lo deseen nunca fueron tan valiosos en primer lugar.

Puede encontrar que es una historia similar con las herramientas de IA generativa, pero necesitará los datos para probarlo.

No te apresures a nada

Los propietarios y editores de sitios web están comprensiblemente preocupados por la tecnología de IA y frustrados por la idea de que los bots utilicen su contenido para generar respuestas instantáneas. Sin embargo, este no es el momento de precipitarse en movimientos de contraofensiva. La tecnología de IA es un campo de rápido movimiento, y las cosas seguirán evolucionando a un ritmo acelerado. Aproveche esta oportunidad para ver cómo se desarrollan las cosas y analizar las posibles amenazas y oportunidades que la IA pone sobre la mesa.

El sistema actual de depender del trabajo de los creadores de contenido para reemplazarlos no es sostenible. Ya sea que empresas como Google y OpenAI cambien su enfoque o que los gobiernos introduzcan nuevas regulaciones, algo tiene que ceder. Al mismo tiempo, las implicaciones negativas de los chatbots de IA en la creación de contenido son cada vez más evidentes, y los propietarios de sitios web y los creadores de contenido pueden utilizarlos en su beneficio.