Utilice la biblioteca Python de PandasAI para aprovechar el poder de la inteligencia artificial y los grandes modelos de lenguaje para realizar tareas de análisis de datos.
Pandas es la biblioteca más predominante para manipular conjuntos de datos y marcos de datos. Esta ha sido la norma durante mucho tiempo. Pero con el avance de la inteligencia artificial, se desarrolla una nueva biblioteca de código abierto llamada PandasAI que agrega capacidades de IA generativa a Pandas.
PandasAI no reemplaza a Pandas. En cambio, brinda sus capacidades generativas de inteligencia artificial. De esta forma, puedes realizar análisis de datos chateando con PandasAI. Luego abstrae lo que sucede en segundo plano y le proporciona el resultado de su consulta.
Instalación de Panda AI
PandasAI está disponible a través de PyPI (Python Package Index). Crear un nuevo entorno virtual si está utilizando un IDE local. Entonces usar el administrador de paquetes pip para instalarlo
pip instalar pandasai
Es posible que encuentre un error de conflicto de dependencia similar al que se muestra a continuación si está utilizando Google Colab.
No rebaje la versión de IPython. Simplemente reinicie su tiempo de ejecución y ejecute el bloque de código nuevamente. Esto resolverá el problema.
El código fuente completo está disponible en un repositorio GitHub.
Comprender el conjunto de datos de muestra
El conjunto de datos de muestra que manipulará con PandasAI es el conjunto de datos de precios de vivienda de California de Kaggle. Este conjunto de datos contiene información sobre viviendas del censo de California de 1990. Tiene diez columnas que proporcionan estadísticas sobre estas casas. La tarjeta de datos para ayudarlo a obtener más información sobre este conjunto de datos está disponible en Kaggle. A continuación se muestran las primeras cinco filas del conjunto de datos.
Cada columna representa una sola estadística de una casa.
Conexión de PandasAI al modelo de lenguaje grande
Para conectar PandasAI a un modelo de lenguaje grande (LLM) como el de OpenAI, necesita acceso a su clave API. Para obtener uno, proceda a la Plataforma de IA abierta. Luego inicie sesión en su cuenta. Seleccionar API en la página de opciones que aparece a continuación.
Después de eso, haga clic en su perfil y seleccione el Ver claves API opción. En la página que aparece a continuación, haga clic en Crear nueva clave secreta botón. Por último, asigne un nombre a su clave API.
OpenAI generará su clave API. Cópielo, ya que lo necesitará mientras conecta PandasAI con OpenAI. Asegúrese de mantener la clave en secreto, ya que cualquier persona con acceso a ella puede realizar llamadas a OpenAI en su nombre. OpenAI luego cargará su cuenta por las llamadas.
Ahora que tiene la clave API, cree una nueva secuencia de comandos de Python y pegue el código a continuación. No necesitará cambiar este código, ya que la mayor parte del tiempo se basará en él.
importar pandas como p.d.
de pandasai importar PandasAI# Reemplazar con su conjunto de datos o marco de datos
df = pd.read_csv("/contenido/vivienda.csv")# Instanciar un LLM
de pandasai.llm.openai importar IA abierta
llm = OpenAI(api_token="su token de API")
pandas_ai = PandasAI(llm)
El código anterior importa tanto PandasAI como Pandas. Luego lee un conjunto de datos. Finalmente, instancia el OpenAI LLM.
Ahora está configurado para conversar con sus datos.
Realización de tareas simples con PandasAI
Para consultar sus datos, pase su marco de datos y su aviso a la instancia de la clase PandasAI. Comience imprimiendo las primeras cinco filas de su conjunto de datos.
pandas_ai (df, solicitud ='¿Cuáles son las primeras cinco filas del conjunto de datos?')
La salida del indicador anterior es la siguiente:
Este resultado es idéntico al de la descripción general del conjunto de datos anterior. Esto demuestra que PandasAI produce resultados correctos y es confiable.
Luego, verifique la cantidad de columnas presentes en su conjunto de datos.
pandas_ai (df, solicitud ='¿Cuántas columnas hay en el conjunto de datos? ')
Devuelve 10, que es el número correcto de columnas en el conjunto de datos de Vivienda de California.
Comprobar si faltan valores en el conjunto de datos.
pandas_ai (df, solicitud ='¿Falta algún valor en el conjunto de datos?')
PandasAI devuelve que el habitaciones_totales la columna tiene 207 valores faltantes, lo que nuevamente es correcto.
Hay muchas tareas simples que puede realizar con PandasAI, no está limitado a las anteriores.
Realización de consultas complejas con PandasAI
PandasAI no solo admite tareas simples. También puede usarlo para realizar consultas complejas sobre el conjunto de datos. Por ejemplo, en el conjunto de datos de viviendas, si desea determinar el número de casas que se encuentran en un isla, tenga un valor de más de 100,000 dólares y tenga más de 10 habitaciones, puede usar el indicador abajo.
pandas_ai (df, solicitud = "¿Cuántas casas tienen un valor superior a 100000?"
"¿Están en una isla y el total de habitaciones es más de 10?")
La salida correcta es cinco. Este es el mismo resultado que genera PandasAI.
Las consultas complejas pueden llevar un tiempo a un analista de datos para escribir y depurar. El mensaje anterior solo requiere dos líneas de lenguaje natural para realizar la misma tarea. Solo necesita tener en mente exactamente lo que quiere lograr, y PandasAI se encargará del resto.
Dibujar gráficos usando PandasAI
Los gráficos son una parte vital de cualquier proceso de análisis de datos. Ayuda a los analistas de datos a visualizar los datos de una manera amigable para los humanos. PandasAI también tiene una función de dibujo de gráficos. Solo tienes que pasar el marco de datos y la instrucción.
Comience por crear un histograma para cada columna en el conjunto de datos. Esto le ayudará a visualizar la distribución de las variables.
pandas_ai (df, solicitud = "Trazar un histograma para cada columna en el conjunto de datos")
La salida es la siguiente:
PandasAI pudo dibujar el histograma de todas las columnas sin tener que pasar sus nombres en el aviso.
PandasAI también puede trazar gráficos sin que le digas explícitamente qué gráfico usar. Por ejemplo, es posible que desee averiguar la correlación de los datos en el conjunto de datos de viviendas. Para lograr esto, puede pasar un aviso de la siguiente manera:
pandas_ai (df, solicitud = "Trazar la correlación en el conjunto de datos")
PandasAI traza una matriz de correlación como se muestra a continuación:
La biblioteca elige un mapa de calor y traza una matriz de correlación.
Pasar múltiples marcos de datos a la instancia de PandasAI
Trabajar con múltiples marcos de datos puede ser complicado. Especialmente para una persona que es nueva en el análisis de datos. PandasAI cierra esta brecha ya que todo lo que necesita hacer es pasar ambos marcos de datos y comenzar a usar indicaciones para manipular los datos.
Cree dos marcos de datos usando Pandas.
empleados_datos = {
'ID de empleado': [1, 2, 3, 4, 5],
'Nombre': ['John', 'Ema', 'liam', 'olivia', 'Guillermo'],
'Departamento': ['HORA', 'Ventas', 'ÉL', 'Marketing', 'Finanzas']
}datos_salarios = {
'ID de empleado': [1, 2, 3, 4, 5],
'Salario': [5000, 6000, 4500, 7000, 5500]
}
empleados_df = pd. Marco de datos (empleados_datos)
salarios_df = pd. Marco de datos (salaries_data)
Puede hacerle a PandasAI una pregunta que abarque ambos marcos de datos. Solo tiene que pasar ambos marcos de datos a la instancia de PandasAI.
pandas_ai([empleados_df, salarios_df], "¿Qué empleado tiene el salario más alto?")
Vuelve olivia que es de nuevo la respuesta correcta.
Realizar análisis de datos nunca ha sido tan fácil, PandasAI le permite chatear con sus datos y analizarlos con facilidad.
Comprender la tecnología que impulsa a PandasAI
PandasAI simplifica el proceso de análisis de datos, por lo que ahorra mucho tiempo a los analistas de datos. Pero abstrae lo que está sucediendo en el fondo. Debe familiarizarse con la IA generativa para poder tener una visión general de cómo funciona PandasAI bajo el capó. Esto también lo ayudará a mantenerse al día con las últimas innovaciones en el dominio de la IA generativa.