GPTBot probablemente no sea lo que piensas.

Conclusiones clave

  • GPTBot de OpenAI es un rastreador web diseñado para recopilar datos de sitios web públicos, que luego se utilizan para entrenar y mejorar modelos de IA como GPT-4 y ChatGPT.
  • Algunos de los sitios web más importantes de Internet están bloqueando GPTBot porque accede y utiliza contenido protegido por derechos de autor sin permiso ni compensación para los creadores.
  • Si bien los sitios web pueden utilizar herramientas como robots.txt para intentar bloquear GPTBot, no hay garantías de que OpenAI cumpla, lo que les otorga control sobre el acceso a datos protegidos por derechos de autor.

En agosto de 2023, OpenAI, la potencia de la IA a la que se le atribuye el desarrollo de ChatGPT, anunció GPTBot, un rastreador web diseñado para recorrer la web y recopilar datos.

No mucho después de ese anuncio, algunos de los sitios web más importantes de Internet bloquearon el acceso del bot a su sitio web. ¿Pero por qué? ¿Qué es el GPTBot de OpenAI? ¿Por qué los grandes sitios web le temen y por qué intentan bloquearlo?

instagram viewer

¿Qué es el GPTBot de OpenAI?

GPTBot es un rastreador web creado por OpenAI para buscar en Internet y recopilar información para los objetivos de desarrollo de la IA de OpenAI. Está programado para rastrear sitios web públicos y enviar los datos a los servidores de OpenAI. Luego, OpenAI utiliza estos datos para entrenar y mejorar sus modelos de IA, con el objetivo de construir sistemas de inteligencia artificial cada vez más avanzados. Para crear modelos de IA sofisticados como GPT-4 o sus productos secundarios como ChatGPT, los rastreadores web son casi indispensables.

Entrenar un modelo de IA requiere una enorme cantidad de datos, y una de las formas más efectivas de recopilar estos datos es mediante la implementación de herramientas como rastreadores web. Los rastreadores pueden navegar sistemáticamente por la web, seguir enlaces para indexar grandes volúmenes de páginas web y extraer datos clave como texto, imágenes y metadatos que coincidan con un patrón predefinido.

Luego, estos datos pueden estructurarse e introducirse en modelos de IA para entrenar sus capacidades de procesamiento del lenguaje natural o de generación de imágenes o entrenarlos para otras tareas de IA. En otras palabras, los rastreadores web recopilan los datos que hacen posible que herramientas como ChatGPT o DALL-E hagan lo que hacen.

Los rastreadores web no son un concepto nuevo. Probablemente haya millones de ellos rastreando los miles de millones de sitios web disponibles en Internet hoy en día. Y existen desde al menos principios de los años 90. GPTBot es sólo uno de esos rastreadores propiedad de OpenAI. Entonces, ¿qué está causando la controversia en torno a este rastreador web en particular?

¿Por qué los sitios de grandes tecnologías bloquean GPTBot?

De acuerdo a Business Insider, algunos de los sitios web más grandes de Internet están bloqueando activamente el rastreador de OpenAI en su sitio web. Entonces, si el objetivo final de GPTBot es avanzar en el desarrollo de la IA, ¿por qué algunos de los sitios más importantes de Internet, algunos de los cuales se han beneficiado de una forma u otra de la IA, están en contra de él?

Bueno, aquí está la cuestión. Desde el resurgimiento de las tecnologías de IA generativa en 2022, ha habido numerosos debates sobre el derecho de las empresas de IA a utilizar, casi sin límites, datos obtenidos de Internet, una parte importante de los cuales está legalmente protegido por derechos de autor. No hay leyes claras que regulen cómo estas empresas recopilan y utilizan datos para su propio beneficio.

Básicamente, los rastreadores como GPTBot rastrean la web, capturan el trabajo creativo de las personas en forma de texto, imágenes u otras formas de medios y utilizarlo con fines comerciales sin obtener ningún permiso, licencia o compensación al original creadores.

Es un salvaje oeste ahí fuera, y las empresas de inteligencia artificial están acaparando todo lo que pueden conseguir. Los grandes sitios web como Quora, CNN, el New York Times, Business Insider y Amazon no están muy contentos de que sus Estos rastreadores están recopilando contenido protegido por derechos de autor, por lo que OpenAI puede obtener beneficios financieros de él en su gastos.

Es por eso que estos sitios están implementando "robots.txt", un método que existe desde hace décadas para bloquear los rastreadores web. De acuerdo a AbiertoAI, GPTBot obedecerá las instrucciones para rastrear o evitar rastrear sitios web según las reglas integradas en robots.txt, un pequeño archivo de texto que indica a los rastreadores web cómo comportarse en un sitio. Si tiene un sitio propio y le gustaría evitar que GPTBot obtenga sus datos, aquí le mostramos cómo puede hacerlo. bloquear a los rastreadores de OpenAI para que no rastreen su sitio web.

¿Pueden los sitios web realmente detener GPTBot?

Si bien los rastreadores como GPTBot son indispensables para recopilar las enormes cantidades de datos necesarios para entrenar sistemas avanzados de IA, existen preocupaciones válidas sobre los derechos de autor y el uso justo que no pueden ignorado.

Claro, existen herramientas simples como robots.txt que se pueden usar para protegerse contra esto, pero si GPTBot obedece las instrucciones de este archivo queda totalmente a discreción de OpenAI. No hay garantías de que lo hagan, y no existe una forma inmediata e infalible de saber si lo han hecho. En la lucha por mantener a GPTBot alejado de los datos protegidos por derechos de autor, OpenAI tiene la ventaja, al menos por ahora.