Puede utilizar Meta's Llama 2 en línea, pero puede personalizar la experiencia si lo instala en su máquina local.

Meta lanzó Llama 2 en el verano de 2023. La nueva versión de Llama está optimizada con un 40% más de tokens que el modelo Llama original, duplicando la longitud de su contexto y superando significativamente a otros modelos de código abierto disponibles. La forma más rápida y sencilla de acceder a Llama 2 es a través de una API a través de una plataforma en línea. Sin embargo, si desea la mejor experiencia, lo mejor es instalar y cargar Llama 2 directamente en su computadora.

Con eso en mente, hemos creado una guía paso a paso sobre cómo usar Text-Generation-WebUI para cargar un Llama 2 LLM cuantificado localmente en su computadora.

¿Por qué instalar Llama 2 localmente?

Hay muchas razones por las que la gente elige ejecutar Llama 2 directamente. Algunos lo hacen por cuestiones de privacidad, otros por personalización y otros por capacidades fuera de línea. Si está investigando, perfeccionando o integrando Llama 2 para sus proyectos, es posible que acceder a Llama 2 a través de API no sea para usted. El objetivo de ejecutar un LLM localmente en su PC es reducir la dependencia de

instagram viewer
herramientas de inteligencia artificial de terceros y utilice la IA en cualquier momento y lugar, sin preocuparse por la filtración de datos potencialmente confidenciales a empresas y otras organizaciones.

Dicho esto, comencemos con la guía paso a paso para instalar Llama 2 localmente.

Para simplificar las cosas, usaremos un instalador de un solo clic para Text-Generation-WebUI (el programa usado para cargar Llama 2 con GUI). Sin embargo, para que este instalador funcione, debe descargar la herramienta de compilación de Visual Studio 2019 e instalar los recursos necesarios.

Descargar:Estudio visual 2019 (Gratis)

  1. Continúe y descargue la edición comunitaria del software.
  2. Ahora instale Visual Studio 2019, luego abra el software. Una vez abierto, marque la casilla Desarrollo de escritorio con C++ y presiona instalar.

Ahora que tiene instalado el desarrollo de escritorio con C++, es hora de descargar el instalador de un solo clic de Text-Generation-WebUI.

Paso 2: Instale Text-Generation-WebUI

El instalador de un clic de Text-Generation-WebUI es un script que crea automáticamente las carpetas necesarias y configura el entorno de Conda y todos los requisitos necesarios para ejecutar un modelo de IA.

Para instalar el script, descargue el instalador de un solo clic haciendo clic en Código > Descargar ZIP.

Descargar:Instalador de Text-Generation-WebUI (Gratis)

  1. Una vez descargado, extraiga el archivo ZIP a su ubicación preferida y luego abra la carpeta extraída.
  2. Dentro de la carpeta, desplácese hacia abajo y busque el programa de inicio apropiado para su sistema operativo. Ejecute los programas haciendo doble clic en el script apropiado.
    • Si estás en Windows, selecciona ventanas_iniciales archivo por lotes
    • para MacOS, seleccione inicio_macos vale de concha
    • para Linux, inicio_linux script de shell.
  3. Su antivirus podría crear una alerta; esto esta bien. El mensaje es sólo un antivirus falso positivo para ejecutar un archivo por lotes o un script. Haga clic en Correr a ninguna parte.
  4. Se abrirá una terminal e iniciará la configuración. Al principio, la configuración se detendrá y le preguntará qué GPU está utilizando. Seleccione el tipo apropiado de GPU instalado en su computadora y presione Enter. Para aquellos sin una tarjeta gráfica dedicada, seleccione Ninguno (quiero ejecutar modelos en modo CPU). Tenga en cuenta que ejecutar el modelo en modo CPU es mucho más lento en comparación con ejecutar el modelo con una GPU dedicada.
  5. Una vez que se completa la configuración, ahora puede iniciar Text-Generation-WebUI localmente. Puede hacerlo abriendo su navegador web preferido e ingresando la dirección IP proporcionada en la URL.
  6. La WebUI ya está lista para su uso.

Sin embargo, el programa es sólo un cargador de modelos. Descarguemos Llama 2 para que se inicie el cargador de modelos.

Paso 3: descarga el modelo Llama 2

Hay bastantes cosas a considerar al decidir qué versión de Llama 2 necesitas. Estos incluyen parámetros, cuantificación, optimización de hardware, tamaño y uso. Toda esta información se encontrará indicada en el nombre del modelo.

  • Parámetros: El número de parámetros utilizados para entrenar el modelo. Los parámetros más grandes hacen que los modelos sean más capaces, pero a costa del rendimiento.
  • Uso: Puede ser estándar o chatear. Un modelo de chat está optimizado para usarse como un chatbot como ChatGPT, mientras que el estándar es el modelo predeterminado.
  • Optimización de hardware: Se refiere a qué hardware ejecuta mejor el modelo. GPTQ significa que el modelo está optimizado para ejecutarse en una GPU dedicada, mientras que GGML está optimizado para ejecutarse en una CPU.
  • Cuantización: Denota la precisión de pesos y activaciones en un modelo. Para inferir, una precisión de q4 es óptima.
  • Tamaño: Se refiere al tamaño del modelo específico.

Tenga en cuenta que algunos modelos pueden estar organizados de manera diferente y es posible que ni siquiera muestren el mismo tipo de información. Sin embargo, este tipo de convención de nomenclatura es bastante común en el AbrazosCara Biblioteca de modelos, por lo que aún vale la pena entenderla.

En este ejemplo, el modelo puede identificarse como un modelo Llama 2 de tamaño mediano entrenado en 13 mil millones de parámetros optimizados para la inferencia de chat utilizando una CPU dedicada.

Para aquellos que ejecutan en una GPU dedicada, elija una GPTQ modelo, mientras que para aquellos que usan una CPU, elija GGML. Si desea chatear con el modelo como lo haría con ChatGPT, elija charlar, pero si desea experimentar con el modelo con todas sus capacidades, utilice el estándar modelo. En cuanto a los parámetros, sepa que utilizar modelos más grandes proporcionará mejores resultados a expensas del rendimiento. Personalmente te recomendaría que empieces con un modelo 7B. En cuanto a la cuantización, utilice q4, ya que es sólo para inferir.

Descargar:GGML (Gratis)

Descargar:GPTQ (Gratis)

Ahora que sabes qué versión de Llama 2 necesitas, continúa y descarga el modelo que deseas.

En mi caso, dado que estoy ejecutando esto en una ultrabook, usaré un modelo GGML ajustado para chatear. llama-2-7b-chat-ggmlv3.q4_K_S.bin.

Una vez finalizada la descarga, coloque el modelo en generación de texto-webui-principal > modelos.

Ahora que ha descargado su modelo y colocado en la carpeta del modelo, es hora de configurar el cargador de modelos.

Paso 4: Configurar la WebUI de generación de texto

Ahora comencemos la fase de configuración.

  1. Una vez más, abra Text-Generation-WebUI ejecutando el start_(tu sistema operativo) archivo (consulte los pasos anteriores anteriores).
  2. En las pestañas ubicadas encima de la GUI, haga clic en Modelo. Haga clic en el botón Actualizar en el menú desplegable del modelo y seleccione su modelo.
  3. Ahora haga clic en el menú desplegable del Cargador de modelos y seleccione AutoGPTQ para aquellos que utilizan un modelo GTPQ y transformadores para aquellos que usan un modelo GGML. Finalmente, haga clic en Carga para cargar su modelo.
  4. Para usar el modelo, abra la pestaña Chat y comience a probar el modelo.

¡Felicitaciones, ha cargado Llama2 exitosamente en su computadora local!

Pruebe otros LLM

Ahora que sabes cómo ejecutar Llama 2 directamente en tu computadora usando Text-Generation-WebUI, también deberías poder ejecutar otros LLM además de Llama. Sólo recuerde las convenciones de nomenclatura de los modelos y que sólo las versiones cuantificadas de los modelos (normalmente con precisión q4) se pueden cargar en las PC normales. Muchos LLM cuantificados están disponibles en HuggingFace. Si desea explorar otros modelos, busque TheBloke en la biblioteca de modelos de HuggingFace y encontrará muchos modelos disponibles.