Los usuarios suelen acceder a modelos de lenguaje extenso (LLM) mediante el uso de una interfaz de usuario a través de una API. Aunque proporciona varias ventajas, el uso de API también presenta limitaciones, como la necesidad de acceso constante a Internet. conexión, personalizaciones limitadas, posibles problemas de seguridad y empresas que limitan las capacidades del modelo a través de un muro de pago

Con LLM cuantificados ahora disponibles en HuggingFace y ecosistemas de IA como H20, Text Gen y GPT4All permitiéndole cargar pesas LLM en su computadora, ahora tiene la opción de una forma gratuita, flexible y segura AI.

Para comenzar, ¡aquí hay siete de los mejores LLM locales/fuera de línea que puede usar ahora mismo!

1. Hermes GPTQ

Un modelo de lenguaje de última generación ajustado utilizando un conjunto de datos de 300.000 instrucciones de Nous Research. Hermes se basa en el LLM LlaMA2 de Meta y se ajustó usando salidas GPT-4 en su mayoría sintéticas.

Modelo

Hermes 13b GPTQ

Tamaño del modelo

7,26 GB

Parámetros

13 mil millones

cuantización

4 bits

Tipo

LlaMA2

Licencia

GPL 3

instagram viewer

El uso de LlaMA2 como modelo base permite a Hermes duplicar el tamaño del contexto o un tamaño máximo de token de 4096. Combinando el tamaño de contexto largo y una arquitectura de codificador, se sabe que Hermes da respuestas largas y bajas tasas de alucinaciones. Esto hace de Hermes un gran modelo para varios procesamiento del lenguaje natural (PNL) tareas, como escribir código, crear contenido y ser un chatbot.

Hay varias cuantizaciones y versiones del nuevo Hermes GPTQ. Le recomendamos que primero pruebe el modelo Hermes-Llama2 13B-GPTQ, ya que es la versión más fácil de implementar sin dejar de tener un gran rendimiento.

2. Halcón Instruir GPTQ

Crédito de la imagen: John Schnobrich/Unsplash

Esta versión cuantificada de Falcon se basa en la arquitectura de solo decodificador ajustada con precisión sobre el modelo Flacon-7b sin procesar de TII. El modelo base de Falcon se entrenó utilizando 1,5 billones de tokens sobresalientes obtenidos a través de Internet público. Como un modelo solo de decodificador basado en instrucciones con licencia de Apache 2, Falcon Instruct es perfecto para pequeñas empresas que buscan un modelo para usar en la traducción de idiomas y la entrada de datos.

Modelo

Falcon-7B-Instrucción

Tamaño del modelo

7,58GB

Parámetros

7 billones

cuantización

4 bits

Tipo

Halcón

Licencia

apache 2.0

Sin embargo, esta versión de Falcon no es ideal para ajustes finos y es solo para inferencias. Si desea ajustar Falcon, tendrá que usar el modelo sin procesar, que puede requerir acceso a hardware de capacitación de nivel empresarial como NVIDIA DGX o Aceleradores de IA AMD Instinct.

3.GPT4ALL-J maravilloso

Crédito de la imagen: Nubelson Fernandes/Desplázate

GPT4All-J Groovy es un modelo de solo decodificador ajustado por Nomic AI y con licencia de Apache 2.0. GPT4ALL-J Groovy se basa en el modelo GPT-J original, que es conocido por ser excelente en la generación de texto de indicaciones. GPT4ALL -J Groovy se ha perfeccionado como un modelo de chat, lo cual es ideal para aplicaciones de generación de texto rápidas y creativas. Esto hace que GPT4All-J Groovy sea ideal para los creadores de contenido ayudándolos en la escritura y trabajos creativos, ya sea poesía, música o historias.

Modelo

GPT4ALL-J maravilloso

Tamaño del modelo

3,53GB

Parámetros

7 billones

cuantización

4 bits

Tipo

GPT-J

Licencia

apache 2.0

Desafortunadamente, el modelo base GPT-J se entrenó en un conjunto de datos solo en inglés, lo que significa que incluso este modelo GPT4ALL-J perfeccionado solo puede chatear y realizar aplicaciones de generación de texto en inglés.

4. WizardCoder-15B-GPTQ

Haber de imagen: James Harrison/Unsplash

¿Busca un modelo específicamente ajustado para la codificación? A pesar de su tamaño sustancialmente más pequeño, se sabe que WizardCoder es uno de los mejores modelos de codificación, superando a otros modelos como LlaMA-65B, InstructCodeT5+ y CodeGeeX. Este modelo se entrenó con un método Evol-Instruct específico de codificación, que edita automáticamente sus indicaciones para que sean más efectivas relacionadas con la codificación y que el modelo pueda comprender mejor.

Modelo

WizardCoder-15B-GPTQ

Tamaño del modelo

7,58GB

Parámetros

15 mil millones

cuantización

4 bits

Tipo

Llama

Licencia

bigcode-openrail-m

Al estar cuantificado en un modelo de 4 bits, WizardCoder ahora se puede usar en PC normales, donde las personas pueden usarlo para experimentar y como asistente de codificación para programas y scripts más simples.

5. Mago vicuña sin censura-gptq

Wizard-Vicuna GPTQ es una versión cuantificada de Wizard Vicuna basada en el modelo LlaMA. A diferencia de la mayoría de los LLM lanzados al público, Wizard-Vicuna es un modelo sin censura con su alineación eliminada. Esto significa que el modelo no tiene los mismos estándares morales y de seguridad que la mayoría de los modelos.

Modelo

Mago-Vicuña-30B-Sin Censura-GPTQ

Tamaño del modelo

16,94GB

Parámetros

30 billones

cuantización

4 bits

Tipo

Llama

Licencia

GPL 3

Aunque posiblemente planteando una Problema de control de alineación de IA, tener un LLM sin censura también saca lo mejor del modelo al permitirle responder sin restricciones. Esto también permite a los usuarios agregar su alineación personalizada sobre cómo debe actuar o responder la IA en función de un mensaje determinado.

6. Orca Mini-GPTQ

Crédito de la imagen: Alex Kondratiev/Unsplash

¿Quiere experimentar con un modelo entrenado en un método de aprendizaje único? Orca Mini es una implementación modelo no oficial de los trabajos de investigación de Orca de Microsoft. Fue entrenado utilizando el método de aprendizaje maestro-alumno, donde el conjunto de datos estaba lleno de explicaciones en lugar de solo indicaciones y respuestas. Esto, en teoría, debería resultar en un estudiante más inteligente, donde el modelo puede comprender el problema en lugar de solo buscar pares de entrada y salida como funcionan los LLM típicos.

Modelo

Orca Mini-GPTQ

Tamaño del modelo

8.11GB

Parámetros

3 mil millones

cuantización

4 bits

Tipo

Llama

Licencia

MIT

Con solo tres mil millones de parámetros, Orca Mini GPTQ es fácil de ejecutar incluso en sistemas menos potentes. Sin embargo, este modelo no debe usarse para nada profesional ya que genera información falsa, respuestas sesgadas y ofensivas. Este modelo debe utilizarse para aprender y experimentar con Orca y sus métodos.

7.LlaMA 2 Chat GPTQ

LlaMA 2 es el sucesor del LlaMA LLM original, que generó la mayoría de los modelos en esta lista. LlaMA 2 es una colección de varios LLM, cada uno entrenado usando 7-70 mil millones de parámetros. En general, LlaMA 2 se entrenó previamente con 2 billones de tokens de datos tomados de conjuntos de datos de instrucciones disponibles públicamente.

Modelo

Falcon-40B-Instrucción-GPTQ

Tamaño del modelo

7,26 GB

Parámetros

3 mil millones

cuantización

4 bits

Tipo

AbrirLlaMA

Licencia

EULA (Metalicencia)

LlaMA 2 está diseñado para uso comercial y de investigación. Como tal, este modelo se usa mejor después de un ajuste fino para un mejor rendimiento en tareas específicas. Este modelo específico de GPTQ de chat de LlaMA 2 se ha ajustado y optimizado para el diálogo en inglés, lo que lo convierte en el modelo perfecto para empresas y organizaciones como chatbot con poca o ninguna capacitación adicional requerido. De acuerdo con los términos, las empresas que tengan menos de 700 millones de usuarios pueden usar LlaMA 2 sin pagar ninguna tarifa de licencia de Meta o Microsoft.

Pruebe los modelos locales de lenguaje grande hoy

Algunos de los modelos enumerados anteriormente tienen varias versiones en términos de parámetros. En general, las versiones con parámetros más altos producen mejores resultados pero requieren un hardware más potente, mientras que las versiones con parámetros más bajos generarán resultados de menor calidad, pero pueden ejecutarse en hardware de gama baja. Si no está seguro de si su PC puede ejecutar el modelo, intente primero con la versión de parámetros más bajos, luego continúe hasta que sienta que la caída del rendimiento ya no es aceptable.

Dado que los modelos cuantificados en esta lista solo ocupan unos pocos gigabytes de espacio y plataformas de implementación de modelos como GPT4All y Text-Generation-WebUI se puede instalar fácilmente a través de sus instaladores de un solo clic, probar varios modelos y versiones de modelos no debería tomar mucho tiempo y esfuerzo.

¿Entonces, Qué esperas? ¡Prueba un modelo local hoy!