Probablemente hayas oído hablar del GPT de OpenAI, pero no son los únicos LLM del bloque.
Conclusiones clave
- GPT-4 de OpenAI es el modelo de lenguaje grande más avanzado y ampliamente utilizado, con 1,76 billones de parámetros y capacidades multimodales.
- Claude 2 de Anthropic compite con GPT-4 en tareas de escritura creativa y se mantiene firme a pesar de tener menos recursos.
- PaLM 2 de Google, aunque no es un asesino de GPT-4, es un poderoso modelo de lenguaje con fuertes capacidades multilingües y creativas. Falcon-180B es un modelo de código abierto que rivaliza con los gigantes comerciales y puede competir cara a cara con GPT-3.5.
Es la temporada de la IA y las empresas de tecnología están produciendo grandes modelos de lenguaje como pan de panadería. Se lanzan nuevos modelos rápidamente y cada vez es demasiado difícil realizar un seguimiento.
Pero en medio de la avalancha de nuevos lanzamientos, sólo unos pocos modelos han llegado a la cima y han demostrado ser verdaderos contendientes en el gran espacio de los modelos lingüísticos. A medida que nos acercamos al final de 2023, hemos reunido los seis modelos de lenguajes grandes más impresionantes que debería probar.
1. GPT-4 de OpenAI
GPT-4 es el modelo de lenguaje grande disponible públicamente más avanzado hasta la fecha. Desarrollado por OpenAI y lanzado en marzo de 2023, GPT-4 es la última versión de la serie de transformadores generativos preentrenados que comenzó en 2018. Con sus inmensas capacidades, GPT-4 se ha convertido en uno de los modelos de lenguajes grandes más utilizados y populares del mundo.
Si bien no se ha confirmado oficialmente, las fuentes estiman que GPT-4 puede contener la asombrosa cifra de 1,76 billones de parámetros. alrededor de diez veces más que su predecesor, GPT-3.5, y cinco veces más grande que el buque insignia de Google, PaLM 2. Esta escala masiva habilita las capacidades multimodales de GPT-4, lo que le permite procesar texto e imágenes como entrada. Como resultado, GPT-4 puede interpretar y describir información visual como diagramas y capturas de pantalla además de texto. Su naturaleza multimodal proporciona una comprensión más humana de los datos del mundo real.
En los puntos de referencia científicos, GPT-4 supera significativamente a otros modelos contemporáneos en varias pruebas. Si bien los puntos de referencia por sí solos no demuestran completamente las fortalezas de un modelo, los casos de uso del mundo real han demostrado que GPT-4 es excepcionalmente hábil para resolver problemas prácticos de manera intuitiva. GPT-4 actualmente se factura a $20 por mes y accesible a través del plan Plus de ChatGPT.
2. Claude 2 de Anthropic
Si bien no es tan popular como GPT-4, Claude 2, desarrollado por Anthropic AI, puede igualar los puntos de referencia técnicos y el rendimiento del mundo real de GPT-4 en varias áreas. En algunas pruebas estandarizadas, incluidos exámenes seleccionados, Claude 2 supera al GPT-4. El modelo de lenguaje de IA también tiene una ventana de contexto muy superior con alrededor de 100.000 tokens, en comparación con los modelos de tokens de 8k y 32k de GPT -4. Aunque una mayor longitud de contexto no siempre se traduce en un mejor rendimiento, la capacidad ampliada de Claude 2 proporciona claras ventajas, como digerir libros completos de 75.000 palabras para su análisis.
En rendimiento general, GPT-4 sigue siendo superior, pero Nuestras pruebas internas muestran que Claude 2 lo supera. en varias tareas de escritura creativa. Claude 2 también está por detrás de GPT-4 en habilidades de programación y matemáticas según nuestras evaluaciones, pero se destaca por brindar respuestas creativas y humanas. Cuando solicitamos a todos los modelos de esta lista que escribieran o reescribieran una pieza creativa, seis de cada diez veces, elegimos el resultado de Claude 2 por sus resultados que suenan naturales y parecidos a los humanos. Actualmente, Claude 2 está disponible de forma gratuita a través del chatbot Claude AI. También hay un plan pago de $20 para acceder a funciones adicionales.
A pesar de tener menos respaldo financiero que gigantes como OpenAI y Microsoft, el modelo de IA Claude 2 de Anthropic se mantiene firme frente a los populares modelos GPT y la serie PaLM de Google. Para una IA con menos recursos, Claude 2 es impresionantemente competitivo. Si se ve obligado a apostar sobre qué modelo existente tiene más posibilidades de rivalizar con GPT en un futuro próximo, Claude 2 parece la apuesta más segura. Aunque superado en financiación, las capacidades avanzadas de Claude 2 sugieren que puede competir cara a cara incluso con gigantes bien financiados (aunque vale la pena señalar que Google ha hecho varias contribuciones importantes a Antrópico). El modelo supera su categoría de peso y se muestra prometedor como un retador emergente.
3. GPT-3.5 de OpenAI
Si bien se vio eclipsado por el lanzamiento de GPT-4, no se debe subestimar el GPT-3.5 y sus 175 mil millones de parámetros. A través de ajustes iterativos y actualizaciones centradas en el rendimiento, la precisión y la seguridad, GPT-3.5 ha recorrido un largo camino desde el modelo GPT-3 original. Aunque carece de las capacidades multimodales de GPT -4 y se queda atrás en longitud de contexto y recuento de parámetros, GPT-3.5 sigue siendo muy capaz, siendo GPT-4 el único modelo capaz de superar su rendimiento general. decisivamente.
A pesar de ser un modelo de segundo nivel en la familia GPT, GPT-3.5 puede mantenerse firme e incluso superar a los modelos insignia de Google y Meta en varios puntos de referencia. En las pruebas comparativas de habilidades matemáticas y de programación con el PaLM 2 de Google, las diferencias no fueron marcadas, con GPT-3.5 incluso teniendo una ligera ventaja en algunos casos. Tareas más creativas como el humor y la escritura narrativa hicieron que GPT-3.5 avanzara decisivamente.
Entonces, si bien GPT-4 marca un nuevo hito en IA, GPT-3.5 sigue siendo un modelo impresionantemente poderoso, capaz de competir y, en ocasiones, superar incluso las alternativas más avanzadas. Su continuo refinamiento garantiza que siga siendo relevante incluso junto con los modelos más llamativos de próxima generación.
4. PaLM 2 de Google
Al evaluar las capacidades de un modelo de IA, la fórmula probada es leer el informe técnico y verifique los puntajes de referencia, pero tome todo lo que aprendió con cautela y pruebe el modelo tú mismo. Por contradictorio que parezca, los resultados de las pruebas comparativas no siempre se alinean con el rendimiento del mundo real para algunos modelos de IA. Sobre el papel, se suponía que el PaLM 2 de Google era el asesino del GPT-4, y los resultados de las pruebas oficiales sugieren que coincide con el GPT-4 en algunos puntos de referencia. Sin embargo, en el uso diario, surge una imagen diferente.
En razonamiento lógico, matemáticas y creatividad, PaLM 2 no llega a GPT-4. También va por detrás de Claude de Anthropic en una variedad de tareas de escritura creativa. Sin embargo, aunque no está a la altura de su fama de asesino de GPT-4, PaLM 2 de Google sigue siendo un poderoso modelo de lenguaje por derecho propio, con inmensas capacidades. Gran parte del sentimiento negativo en torno a él proviene de comparaciones con modelos como GPT-4 en lugar de un rendimiento absolutamente deficiente.
Con 340 mil millones de parámetros, PaLM 2 se encuentra entre los modelos más grandes del mundo. Sobresale particularmente en tareas multilingües y posee sólidas habilidades matemáticas y de programación. Aunque no es el mejor en eso, PaLM 2 también es bastante eficiente en tareas creativas como escribir. Entonces, si bien los puntos de referencia pintaron una imagen optimista que no se materializó completamente, PaLM 2 aún demuestra habilidades de inteligencia artificial impresionantes, incluso si no supera a todos los competidores en todos los ámbitos.
5. Falcon-180B de TII
A menos que haya seguido el rápido ritmo de los lanzamientos de modelos de lenguaje de IA, probablemente nunca se haya encontrado con Falcon-180B. Desarrollado por el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos, el Falcon-180 de 180 mil millones de parámetros es uno de los más poderosos. modelos de lenguaje de código abierto que existen, incluso si carece del reconocimiento de nombre de los modelos GPT o del uso generalizado de Meta Llama 2. Pero no se equivoque: el Falcon-180B puede competir cara a cara con los mejores de su clase.
Los resultados de las pruebas comparativas revelan que Falcon-180B supera a la mayoría de los modelos de código abierto y compite con gigantes comerciales como PaLM 2 y GPT-3.5. Al probar tareas de matemáticas, codificación, razonamiento y escritura creativa, incluso superó a GPT-3.5 y PaLM 2 en veces. Si clasificamos GPT-4, GPT-3.5 y Falcon-180B, ubicaríamos a Falcon-180B directamente entre GPT-4 y GPT-3.5 por sus fortalezas en varios casos de uso.
Si bien no podemos decir con seguridad que sea mejor que GPT-3.5 en rendimiento general, se justifica por sí solo. Si bien es oscuro, este modelo merece atención por igualar o superar las capacidades de alternativas más conocidas. Puedes probar el modelo Falcon-180B en abrazando la cara (una plataforma LLM de código abierto).
Llama 2, el modelo de lenguaje grande de 70 mil millones de parámetros de Meta AI, se basa en su predecesor, Llama 1. Si bien es más pequeño que los modelos líderes, Llama 2 supera significativamente a la mayoría de los LLM de código abierto disponibles públicamente en puntos de referencia y uso en el mundo real. Una excepción sería el Falcon-180B.
Probamos Llama 2 contra GPT-4, GPT-3.5, Claude 2 y PaLM 2 para evaluar sus capacidades. Como era de esperar, GPT-4 superó a Llama 2 en casi todos los parámetros. Sin embargo, Llama 2 se mantuvo firme frente a GPT-3.5 y PaLM 2 en varias evaluaciones. Si bien sería inexacto afirmar que Llama 2 es superior a PaLM 2, Llama 2 resolvió muchos problemas que dejaban perplejos a PaLM 2, incluidas las tareas de codificación. Claude 2 y GPT-3.5 superaron a Llama 2 en algunas áreas, pero solo fueron decisivamente mejores en un número limitado de tareas.
Entonces, sin exceder las capacidades de los modelos propietarios más grandes, Llama 2 de código abierto supera su categoría de peso. Para un modelo disponible abiertamente, demuestra un rendimiento impresionante, rivalizando con gigantes de la IA como PaLM 2 en evaluaciones selectas. Llama 2 ofrece una idea del potencial futuro de los modelos de lenguaje de código abierto.
La brecha de rendimiento entre los modelos de IA se está reduciendo
Aunque el panorama de la IA está evolucionando a un ritmo vertiginoso, GPT-4 de OpenAI sigue siendo el líder del grupo. Sin embargo, si bien el GPT-4 sigue siendo incomparable en escala y rendimiento, modelos como Claude 2 demuestran que con suficiente habilidad, los modelos más pequeños pueden competir en áreas selectas. El PaLM 2 de Google, a pesar de no cumplir con algunas expectativas elevadas, aún exhibe capacidades profundas. Y Falcon-180B demuestra que las iniciativas de código abierto pueden estar hombro con hombro con los titanes de la industria si cuentan con recursos suficientes.