La biblioteca pandas hace que la ciencia de datos basada en python sea fácil. Es una biblioteca popular de Python para leer, fusionar, clasificar, limpiar datos y más. Aunque pandas es fácil de usar y aplicar en conjuntos de datos, tiene muchas funciones de manipulación de datos para aprender.

Puede usar pandas, pero es muy probable que los esté subutilizando para resolver problemas relacionados con los datos. Aquí está nuestra lista de valiosas funciones de pandas de manipulación de datos que todo científico de datos debería saber.

Instale pandas en su entorno virtual

Antes de continuar, asegúrese de instalar pandas en su entorno virtual usando pip:

pip instalar pandas

Después de instalarlo, importe pandas en la parte superior de su secuencia de comandos, y procedamos.

1. pandas Marco de datos

Tu usas pandas Marco de datos() para crear un DataFrame en pandas. Hay dos formas de utilizar esta función.

Puede formar una columna DataFrame pasando un diccionario al pandas Marco de datos() función. Aquí, cada clave es una columna, mientras que los valores son las filas:

instagram viewer
importar pandas
Marco de datos = pandas. Marco de datos ({"A": [1, 3, 4], "B": [5, 9, 12]})
imprimir (marco de datos)

El otro método es formar el DataFrame en filas. Pero aquí, separará los valores (elementos de fila) de las columnas. El número de datos en cada lista (datos de fila) también debe coincidir con el número de columnas.

importar pandas
Marco de datos = pandas. Marco de datos ([[1, 4, 5], [7, 19, 13]], columnas = ["J", "K", "L"])
imprimir (marco de datos)

2. Leer y escribir en Excel o CSV en pandas

Puede leer o escribir en archivos Excel o CSV con pandas.

Lectura de archivos Excel o CSV

Para leer un archivo de Excel:

#Reemplace example.xlsx con la ruta de su archivo de Excel
Marco de datos = Marco de datos.read_excel("ejemplo.xlsx")

Aquí se explica cómo leer un archivo CSV:

#Reemplace example.csv con la ruta de su archivo CSV
Marco de datos = Marco de datos.read_csv("ejemplo.csv")

Escribir en Excel o CSV

Escribir en Excel o CSV es una operación de pandas bien conocida. Y es útil para guardar tablas recién calculadas en hojas de datos separadas.

Para escribir en una hoja de Excel:

DataFrame.to_excel("ruta_completa_de_la_carpeta_de_destino/nombre_de_archivo.xlsx")

Si quieres escribir a CSV:

DataFrame.to_csv("ruta_completa_de_la_carpeta_de_destino/nombre_de_archivo.csv")

También puede calcular las tendencias centrales de cada columna en un DataFrame usando pandas.

Aquí se explica cómo obtener el valor medio de cada columna:

Marco de datos.mean()

Para el valor de la mediana o la moda, reemplace significar() con mediana() o modo().

4. DataFrame.transform

pandas' Marco de datos.transform() modifica los valores de un DataFrame. Acepta una función como argumento.

Por ejemplo, el siguiente código multiplica cada valor en un DataFrame por tres usando Función lambda de Python:

Marco de datos = Marco de datos.transformar (lambda y: y*3)
imprimir (marco de datos)

5. DataFrame.isnull

Esta función devuelve un valor booleano y marca todas las filas que contienen valores nulos como Cierto:

Marco de datos.isnull()

El resultado del código anterior puede ser difícil de leer para conjuntos de datos más grandes. Así que puedes usar el es nulo().sum() función en su lugar. Esto devuelve un resumen de todos los valores faltantes para cada columna:

Marco de datos.isnull().sum()

6. dataframe.info

El información() la función es una operación pandas esencial. En su lugar, devuelve el resumen de los valores que no faltan para cada columna:

Marco de datos.info()

7. Marco de datos.describe

El describir() La función le brinda la estadística de resumen de un DataFrame:

Marco de datos.describe()

8. Marco de datos.reemplazar

Utilizando el Marco de datos.reemplazar() método en pandas, puede reemplazar las filas seleccionadas con otros valores.

Por ejemplo, para intercambiar filas no válidas con Yaya:

# Asegúrese de instalar pip numpy para que esto funcione
importar numpy
importar pandas
# Agregar una palabra clave in situ y establecerla en True hace que los cambios sean permanentes:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
imprimir (marco de datos)

9. DataFrame.fillna

Esta función le permite llenar filas vacías con un valor particular. Puedes llenar todo Yaya filas en un conjunto de datos con el valor medio, por ejemplo:

DataFrame.fillna (df.mean(), en el lugar = Verdadero)
imprimir (marco de datos)

También puede ser específico de la columna:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
imprimir (marco de datos)

10. DataFrame.dropna

El dropna() El método elimina todas las filas que contienen valores nulos:

DataFrame.dropna (inplace = True)
imprimir (marco de datos)

11. DataFrame.insertar

Puedes usar pandas insertar() función para agregar una nueva columna a un DataFrame. Acepta tres palabras clave, la nombre de la columna, una lista de sus datos, y su ubicación, que es un índice de columna.

Así es como funciona:

DataFrame.insert (columna = 'C', valor = [3, 4, 6, 7], loc=0)
imprimir (marco de datos)

El código anterior inserta la nueva columna en el índice de la columna cero (se convierte en la primera columna).

12. DataFrame.loc

Puedes usar ubicación para encontrar los elementos en un índice particular. Para ver todos los elementos de la tercera fila, por ejemplo:

Marco de datos.loc[2]

13. Marco de datos.pop

Esta función le permite eliminar una columna específica de un DataFrame de pandas.

Acepta un ít palabra clave, devuelve la columna emergente y la separa del resto del DataFrame:

DataFrame.pop (elemento = 'nombre_columna')
imprimir (marco de datos)

14. Marco de datos.max, min

Obtener los valores máximo y mínimo usando pandas es fácil:

Marco de datos.min()

El código anterior devuelve el valor mínimo para cada columna. Para obtener el máximo, reemplace min con máximo.

15. DataFrame.join

El entrar() La función de pandas le permite combinar DataFrames con diferentes nombres de columna. Puede utilizar la combinación izquierda, derecha, interior o exterior. Para unir a la izquierda un DataFrame con otros dos:

#Juntar a la izquierda las columnas más largas con las más cortas
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
imprimir (nueva trama de datos)

Para unir DataFrames con nombres de columna similares, puede diferenciarlos al incluir un sufijo a la izquierda o a la derecha. Haga esto incluyendo el sufijo o sufijo palabra clave:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
imprimir (nueva trama de datos)

16. DataFrame.combine

El combinar() La función es útil para fusionar dos DataFrames que contienen nombres de columnas similares según los criterios establecidos. Acepta un función palabra clave.

Por ejemplo, para fusionar dos DataFrames con nombres de columna similares basados ​​únicamente en los valores máximos:

newDataFrame = df.combine (df2, numpy.minimum)
imprimir (nueva trama de datos)

Nota: También puede definir una función de selección personalizada e insertar numpy.mínimo.

17. DataFrame.astype

El tipo() La función cambia el tipo de datos de una columna o DataFrame en particular.

Para cambiar todos los valores en un DataFrame a una cadena, por ejemplo:

DataFrame.astype (str)

18. DataFrame.sum

El suma() La función en pandas devuelve la suma de los valores en cada columna:

Marco de datos.sum()

También puede encontrar la suma acumulada de todos los artículos usando cumsum():

Marco de datos.cumsum()

19. Marco de datos.drop

pandas' soltar() La función elimina filas o columnas específicas en un DataFrame. Debe proporcionar los nombres de columna o el índice de fila y un eje para usarlo.

Para eliminar columnas específicas, por ejemplo:

df.drop (columnas=['columna1', 'columna2'], eje=0)

Para colocar filas en los índices 1, 3 y 4, por ejemplo:

df.drop([1, 3, 4], eje=0)

20. DataFrame.corr

¿Quiere encontrar la correlación entre columnas enteras o flotantes? pandas puede ayudarte a lograrlo usando el corr() función:

Marco de datos.corr()

El código anterior devuelve un nuevo DataFrame que contiene la secuencia de correlación entre todas las columnas enteras o flotantes.

21. DataFrame.añadir

El agregar() La función le permite agregar un número específico a cada valor en DataFrame. Funciona iterando a través de un DataFrame y operando en cada elemento.

Relacionado:Cómo usar bucles for en Python

Para sumar 20 a cada uno de los valores en una columna específica que contiene números enteros o flotantes, por ejemplo:

Marco de datos['columna_interger'].add (20)

22. DataFrame.sub

Al igual que la función de suma, también puede restar un número de cada valor en un DataFrame o columna específica:

Marco de datos['columna_interger'].sub (10)

23. DataFrame.mul

Esta es una versión de multiplicación de la función de suma de pandas:

Marco de datos['columna_interger'].mul (20)

24. Marco de datos.div

De manera similar, puede dividir cada punto de datos en una columna o DataFrame por un número específico:

Marco de datos['columna_interger'].div (20)

25. Marco de datos.std

Utilizando el estándar () función, pandas también le permite calcular la desviación estándar para cada columna en un DataFrame. Funciona iterando a través de cada columna en un conjunto de datos y calculando la desviación estándar para cada uno:

Marco de datos.std()

26. DataFrame.sort_values

También puede ordenar los valores de forma ascendente o descendente en función de una columna en particular. Para ordenar un DataFrame en orden descendente, por ejemplo:

newDataFrame = DataFrame.sort_values ​​(por = "colmun_name", descendente = True)

27. DataFrame.melt

El fundir() La función en pandas voltea las columnas en un DataFrame a filas individuales. Es como exponer la anatomía de un DataFrame. Por lo tanto, le permite ver el valor asignado a cada columna de forma explícita.

newDataFrame = DataFrame.melt()

28. trama de datos.recuento

Esta función devuelve el número total de elementos en cada columna:

Marco de datos.contar()

29. DataFrame.consulta

pandas' consulta() le permite llamar elementos utilizando su número de índice. Para obtener los elementos de la tercera fila, por ejemplo:

Marco de datos.consulta('4') # Llame a la consulta en el cuarto índice

30. DataFrame.donde

El donde() La función es una consulta de pandas que acepta una condición para obtener valores específicos en una columna. Por ejemplo, para obtener todas las edades menores de 30 de un Envejecer columna:

DataFrame.where (DataFrame['Edad'] < 30)

El código anterior genera un DataFrame que contiene todas las edades menores de 30 pero asigna Yaya a las filas que no cumplen la condición.

Maneje los datos como un profesional con pandas

pandas es un tesoro de funciones y métodos para manejar conjuntos de datos de pequeña a gran escala con Python. La biblioteca también es útil para limpiar, validar y preparar datos para análisis o aprendizaje automático.

Tomarse el tiempo para dominarlo definitivamente hace que su vida sea más fácil como científico de datos, y vale la pena el esfuerzo. Así que siéntete libre de elegir todas las funciones que puedas manejar.

20 funciones de Python que debes saber

La biblioteca estándar de Python contiene muchas funciones para ayudarlo con sus tareas de programación. Conozca los más útiles y cree código más robusto.

Leer siguiente

CuotaPíoCorreo electrónico
Temas relacionados
  • Programación
  • Pitón
  • Programación
  • base de datos
Sobre el Autor
Idowu Omisola (123 Artículos Publicados)

A Idowu le apasiona la tecnología inteligente y la productividad. En su tiempo libre, juega con la codificación y cambia al tablero de ajedrez cuando está aburrido, pero también le encanta romper con la rutina de vez en cuando. Su pasión por mostrarle a la gente el camino alrededor de la tecnología moderna lo motiva a escribir más.

Más de Idowu Omisola

Suscríbete a nuestro boletín

¡Únase a nuestro boletín para obtener consejos técnicos, reseñas, libros electrónicos gratuitos y ofertas exclusivas!

Haga clic aquí para suscribirse