GPT-4 ya está aquí, y estas son las nuevas funciones que debe consultar.
OpenAI finalmente lanzó su tan esperada actualización de GPT, GPT-4. El modelo de lenguaje grande (LLM) viene con algunas características y capacidades nuevas y poderosas que ya han sorprendido a los usuarios de todo el mundo.
Además de ser significativamente mejor que GPT-3.5, el LLM existente que impulsa el chatbot viral ChatGPT de OpenAI, GPT-4 puede comprender entradas más complejas, tiene un límite de entrada de caracteres mucho mayor, tiene capacidades multimodales y, según se informa, es más seguro para usar.
1. GPT-4 puede comprender entradas más complejas
Una de las características nuevas más importantes de GPT-4 es su capacidad para comprender indicaciones más complejas y matizadas. De acuerdo a IA abierta, GPT-4 "exhibe un desempeño a nivel humano en varios puntos de referencia académicos y profesionales".
Esto se demostró al someter a GPT-4 a varios exámenes de nivel humano y pruebas estandarizadas, como SAT, BAR y GRE, sin capacitación específica. GTP-4 no solo entendió y resolvió estas pruebas con una puntuación relativamente alta en todos los ámbitos, sino que también superó a su predecesor, GPT-3.5, cada vez.
La capacidad de comprender indicaciones de entrada más matizadas también se ve favorecida por el hecho de que GPT-4 tiene un límite de palabras mucho mayor. El nuevo modelo puede manejar indicaciones de entrada de hasta 25 000 palabras (por contexto, GPT-3.5 se limitó a 8000 palabras). Esto afectará directamente el detalle que los usuarios pueden incluir en sus indicaciones, lo que le dará al modelo mucha más información con la que trabajar y generará resultados más extensos.
GPT-4 también admite más de 26 idiomas, incluidos idiomas de bajos recursos como el letón, el galés y el swahili. Cuando se comparó con la precisión de tres disparos en el punto de referencia de MMLU, GPT-4 superó a GPT-3.5, así como a otros LLM líderes como PaLM y Chinchilla en términos de rendimiento en inglés en 24 idiomas.
2. Capacidades Multimodales
La versión anterior de ChatGPT estaba limitado a solo mensajes de texto. Por el contrario, una de las características más nuevas de GPT-4 es su capacidad multimodal. El modelo puede aceptar mensajes de texto e imágenes.
Esto significa que la IA puede aceptar una imagen como entrada e interpretarla y comprenderla como un mensaje de texto. Esta capacidad abarca todos los tamaños y tipos de imágenes y texto, incluidos documentos que combinan los dos, bocetos dibujados a mano e incluso capturas de pantalla.
Sin embargo, las capacidades de lectura de imágenes de GPT-4 van más allá de simplemente interpretarlas. OpenAI mostró esto en su flujo de desarrolladores (arriba), donde proporcionaron a GPT-4 una maqueta dibujada a mano de un sitio web de broma. Se encargó al modelo que escribiera código HTML y JavaScript para convertir la maqueta en un sitio web mientras reemplazaba las bromas con las reales.
GPT-4 escribió el código mientras usaba el diseño especificado en la maqueta. Tras la prueba, el código produjo un sitio de trabajo con, como puede adivinar, bromas reales. Eso significa Los avances de la IA significarán el fin de la programación? No del todo, pero sigue siendo una característica que será útil para ayudar a los programadores.
A pesar de lo prometedor que parece esta característica, todavía se encuentra en una versión preliminar de investigación y no está disponible públicamente. Además, el modelo requiere mucho tiempo para procesar las entradas visuales, y el propio OpenAI afirma que podría llevar trabajo y tiempo hacerlo más rápido.
3. Mayor maniobrabilidad
OpenAI también afirma que GPT-4 tiene un alto grado de maniobrabilidad. También ha hecho que sea más difícil para la IA romper el personaje, lo que significa que es menos probable que falle cuando se implementa en una aplicación para interpretar a un personaje determinado.
Los desarrolladores pueden prescribir el estilo y la tarea de su IA describiendo la dirección en el mensaje del "sistema". Estos mensajes permiten a los usuarios de API personalizar en gran medida la experiencia del usuario dentro de ciertos límites. Dado que estos mensajes también son la forma más fácil de "liberar" el modelo, también están trabajando para hacerlos más seguros. La demostración de GPT-4 clavó en este punto al hacer que un usuario intentara evitar que GPT-4 fuera un tutor socrático y respondiera a su consulta. Sin embargo, la modelo se negó a romper con el personaje.
4. Seguridad
OpenAI pasó seis meses haciendo GPT-4 más seguro y más alineado. La empresa afirma que es un 82 % menos probable que responda a solicitudes de contenido inapropiado o no permitido, un 29 % más probable que responder de acuerdo con las políticas de OpenAI a solicitudes confidenciales, y un 40% más de probabilidades de producir respuestas fácticas en comparación con GPT-3.5.
No es perfecto, y aún puede esperar que "alucine" de vez en cuando y puede estar equivocado en sus predicciones. Claro, GPT-4 tiene mejores percepciones y poder de predicción, pero aún así no debes confiar ciegamente en la IA.
5. Mejoras de rendimiento
Además de evaluar el rendimiento del modelo en exámenes humanos, OpenAI también evaluó el bot en puntos de referencia tradicionales diseñados para modelos de aprendizaje automático.
Afirma que GPT-4 "supera considerablemente" a los LLM existentes y a "la mayoría de los modelos más avanzados". Estos puntos de referencia incluyen la antes mencionado MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval y Drop, todos los cuales prueban las capacidades individuales.
Encontrará resultados similares al comparar el desempeño en los puntos de referencia académicos de la visión. Las pruebas ejecutadas incluyen VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA y LSMDC, todas las cuales superan a GPT-4. Sin embargo, OpenAI ha declarado que los resultados de GPT-4 en estas pruebas "no representan completamente el alcance de sus capacidades", ya que los investigadores siguen encontrando cosas nuevas y más desafiantes que el modelo puede abordar.
Pequeño paso para GPT-4, salto gigante para IA
Con más precisión, seguridad de uso y capacidades avanzadas, GPT-4 se lanzó al público a través del plan de suscripción mensual ChatGPT+ que cuesta 20 por mes. Además, OpenAI se ha asociado con diferentes organizaciones para comenzar a crear productos orientados al consumidor con GPT-4. Microsoft Bing, Duolingo, Stripe, Be My Eyes y Khan Academy, entre otros, ya han implementado GPT-4 en sus productos.
GPT-4 puede ser una actualización incremental sobre GPT-3.5, pero es una gran victoria para la IA en general. A medida que el modelo se vuelve más accesible, tanto para el usuario promedio como para los desarrolladores a través de su API, parece que será un buen caso para las implementaciones de LLM en todos los campos.