Los modelos de idiomas grandes (LLM, por sus siglas en inglés) vienen en todas las formas y tamaños, y lo ayudarán de la forma que considere adecuada. ¿Pero cuál es mejor? Ponemos a prueba las IA dominantes de Alphabet, OpenAI y Meta.
Lo que necesita saber sobre los chatbots de IA
La inteligencia artificial general ha sido un objetivo de los científicos informáticos durante décadas, y la IA ha sido un pilar para los escritores y cineastas de ciencia ficción durante aún más tiempo.
AGI exhibe inteligencia similar a las capacidades cognitivas humanas, y la prueba de Turing—una prueba de la capacidad de una máquina para exhibir un comportamiento inteligente indistinguible del de un humano— permaneció casi indiscutible en las siete décadas desde que se presentó por primera vez.
La reciente convergencia de la computación a una escala extremadamente grande, grandes cantidades de dinero y el asombroso volumen de información de forma gratuita. disponible en Internet abierto permitió a los gigantes tecnológicos entrenar modelos que pueden predecir la siguiente sección de palabra, o token, en una secuencia de fichas
Al momento de escribir, ambos Bardo de Google y ChatGPT de OpenAI están disponibles para su uso y prueba a través de sus interfaces web.
El modelo de lenguaje de Meta, LLaMa, no está disponible en la web, pero puede fácilmente descarga y ejecuta LLaMa en tu propio hardware y usarlo a través de una línea de comando o ejecuta Dalai en tu propia máquina—una de varias aplicaciones con una interfaz fácil de usar.
A los efectos de la prueba, ejecutaremos el modelo Alpaca 7B de la Universidad de Stanford, una adaptación de LLaMa, y lo compararemos con Bard y ChatGPT.
Las siguientes comparaciones y pruebas no pretenden ser exhaustivas, sino brindarle una indicación de los puntos y capacidades clave.
¿Cuál es el modelo de lenguaje grande más fácil de usar?
Tanto Bard como ChatGPT requieren una cuenta para usar el servicio. Tanto las cuentas de Google como las de OpenAI son fáciles y gratuitas de crear, y puede comenzar a hacer preguntas de inmediato.
Sin embargo, para ejecutar LLaMa localmente, deberá tener algunos conocimientos especializados o la capacidad de seguir un tutorial. También necesitará una cantidad significativa de espacio de almacenamiento.
¿Cuál es el modelo de lenguaje grande más privado?
Tanto Bard como ChatGPT tienen amplias políticas de privacidad, y Google insiste repetidamente en sus documentos que "no debe incluir información que pueda usarse para identificarlo a usted o a otros en su Bard conversaciones".
De forma predeterminada, Google recopila sus conversaciones y su ubicación general en función de su dirección IP, sus comentarios y la información de uso. Esta información se almacena en su cuenta de Google hasta por 18 meses. Aunque puede hacer una pausa para guardar su actividad de Bard, debe tener en cuenta que "para ayudar con la calidad y mejorar nuestros productos, los revisores humanos leen, anotan y procesan sus conversaciones de Bard".
El uso de Bard también está sujeto al estándar. Política de privacidad de Google.
La política de privacidad de OpenAI es muy similar y recopila direcciones IP y datos de uso. En contraste con la retención de tiempo limitado de Google, OpenAI "retendrá su información personal solo durante el tiempo que sea necesario para proporcionar nuestra Servicio para usted, o para otros fines comerciales legítimos, como resolver disputas, razones de seguridad o cumplir con nuestros requisitos legales. obligaciones".
Por el contrario, un modelo local en su propia máquina no requiere una cuenta ni comparte datos de usuario con nadie.
¿Qué LLM tiene el mejor conocimiento general?
Para probar qué LLM tiene el mejor conocimiento general, hicimos tres preguntas.
La primera pregunta, "¿Qué bandera nacional tiene cinco lados?" solo fue respondida correctamente por Bard, que identificó la bandera nacional de Nepal con cinco lados.
ChatGPT afirmó con confianza que "No hay una bandera nacional que tenga cinco lados. Las banderas nacionales suelen tener forma rectangular o cuadrada, y se caracterizan por sus distintos colores, patrones y símbolos".
Nuestro modelo local se acercó, afirmando que "La bandera nacional de la India tiene cinco lados y fue diseñada en 1916 para representar la bandera de la India". movimiento de independencia". Si bien esta bandera existía y tenía cinco lados, era la bandera del Movimiento de Autonomía de la India, no una bandera nacional.
Ninguno de nuestros modelos pudo responder que el término correcto para un objeto con forma de guisante es "pisiforme", con ChatGPT diciendo hasta el punto de sugerir que los guisantes tienen una "forma geométrica tridimensional que es perfectamente redonda y simétrico."
Los tres chatbots identificaron correctamente a Franco Malerba como un astronauta italiano y miembro de la Parlamento Europeo, con Bard dando una respuesta redactada de manera idéntica a una sección de la Wikipedia de Malerba entrada.
¿Qué LLM es bueno para las instrucciones técnicas?
Cuando tiene problemas técnicos, puede verse tentado a recurrir a un chatbot en busca de ayuda. Mientras la tecnología avanza, algunas cosas siguen igual. El enchufe eléctrico BS 1363 se ha utilizado en Gran Bretaña, Irlanda y muchos otros países desde 1947. Preguntamos a los modelos de lenguaje cómo conectarlo correctamente.
Los cables que se conectan al enchufe tienen un hilo vivo (marrón), un hilo de tierra (amarillo/verde) y un hilo neutro (azul). Estos deben conectarse a los terminales correctos dentro de la carcasa del enchufe.
Nuestra implementación de Dalai identificó correctamente el enchufe como "estilo inglés", luego se desvió y en su lugar dio instrucciones para el enchufe BS 546 de clavija redonda más antiguo junto con los colores de cableado más antiguos.
ChatGPT fue un poco más útil. Etiquetó correctamente los colores del cableado y proporcionó una lista de materiales y un conjunto de ocho instrucciones. ChatGPT también sugirió colocar el cable marrón en la terminal etiquetada como "L", el cable azul en la "N". terminal y el cable amarillo en "E". Esto sería correcto si los terminales BS1363 estuvieran etiquetados, pero no lo son
Bard identificó los colores correctos para los cables y nos indicó que los conectáramos a los terminales Vivo, Neutro y Tierra. No dio instrucciones sobre cómo identificarlos.
En nuestra opinion. ninguno de los chatbots dio instrucciones suficientes para ayudar a alguien a conectar correctamente un enchufe eléctrico BS 1363. Una respuesta concisa y correcta sería: "Azul a la izquierda, marrón a la derecha".
¿Qué LLM es bueno para escribir código?
Python es un lenguaje de programación útil que se ejecuta en la mayoría de las plataformas modernas. Instruimos a nuestros modelos para usar Python y "construir un programa de calculadora básico que pueda realizar operaciones aritméticas como suma, resta, multiplicación y división. Debe aceptar la entrada del usuario y mostrar el resultado". Este es uno de los mejores proyectos de programación para principiantes.
Si bien tanto Bard como ChatGPT devolvieron instantáneamente un código utilizable y comentado minuciosamente, que pudimos probar y verificar, ninguno de los códigos de nuestro modelo local se ejecutaría.
¿Qué LLM cuenta los mejores chistes?
El humor es uno de los fundamentos del ser humano y seguramente una de las mejores maneras de diferenciar al hombre de la máquina. A cada uno de nuestros modelos, le dimos el mensaje simple: "Crea una broma original y divertida".
Afortunadamente para los comediantes de todo el mundo y la raza humana en general, ninguno de los modelos fue capaz de generar una broma original.
Bard lanzó el clásico, "¿Por qué el espantapájaros ganó un premio? Fue sobresaliente en su campo".
Tanto nuestra implementación local como ChatGPT ofrecieron un gemido digno de "¿Por qué los científicos no confían en los átomos? ¡Porque ellos inventan todo!"
Una broma derivada pero original sería: "¿En qué se parecen los modelos de lenguaje grande a los átomos? ¡Ambos inventan cosas!”.
Lo leen aquí primero, amigos.
Ningún chatbot es perfecto
Descubrimos que, si bien los tres grandes modelos de lenguaje tienen sus ventajas y desventajas, ninguno de ellos puede reemplazar la experiencia real de un ser humano con conocimientos especializados.
Si bien Bard y ChatGPT dieron mejores respuestas a nuestra pregunta de codificación y son muy fáciles de usar, ejecutar un modelo de lenguaje grande localmente significa que no necesita preocuparse por la privacidad o censura.
Si desea crear un gran arte de IA sin preocuparse de que alguien esté mirando por encima de su hombro, también es fácil ejecutar un modelo de arte de IA en su máquina local.