Sin duda, la limpieza de datos lleva mucho tiempo en la ciencia de datos, y la falta de datos es uno de los desafíos que enfrentará con frecuencia. pandas es una valiosa herramienta de manipulación de datos de Python que lo ayuda a corregir los valores faltantes en su conjunto de datos, entre otras cosas.

Puede corregir los datos faltantes soltándolos o rellenándolos con otros valores. En este artículo, explicaremos y exploraremos las diferentes formas de completar los datos faltantes usando pandas.

1. Usa el método fillna():

El relleno () La función itera a través de su conjunto de datos y llena todas las filas nulas con un valor específico. Acepta algunos argumentos opcionales; tome nota de los siguientes:

Valor: Este es el valor que desea insertar en las filas que faltan.

Método: Le permite completar los valores faltantes hacia adelante o hacia atrás. Acepta un 'bllenar' o 'rellenar' parámetro.

En su lugar: Esto acepta una declaración condicional. Si es True, modifica el DataFrame de forma permanente. De lo contrario, no lo hace.

instagram viewer

Antes de comenzar, asegúrese de instalar pandas en su Entorno virtual Python utilizando pepita en tu terminal:

pip instalar pandas

A continuación, dentro del script de Python, crearemos un DataFrame de práctica e insertaremos valores nulos (Yaya) en algunas filas:

importar pandas
df = pandas. Marco de datos ({'A': [0, 3, Ninguno, 10, 3, Ninguno],
'B': [Ninguno, Ninguno, 7.13, 13.82, 7, 7],
'C': [Ninguno, "Pandas", Ninguno, "Pandas", "Python", "JavaScript"]})

Relacionado:Cómo importar datos de Excel a scripts de Python usando Pandas

Ahora, vea cómo puede completar estos valores faltantes utilizando los diversos métodos disponibles en pandas.

Este método consiste en reemplazar los valores faltantes con promedios calculados. Rellenar los datos que faltan con un valor medio o mediano es aplicable cuando las columnas involucradas tienen tipos de datos enteros o flotantes.

También puede completar los datos que faltan con el valor de la moda, que es el valor más frecuente. Esto también es aplicable a números enteros o flotantes. Pero es más útil cuando las columnas en cuestión contienen cadenas.

Aquí se explica cómo insertar la media y la mediana en las filas que faltan en el DataFrame que creó anteriormente:

#Para insertar el valor medio de cada columna en las filas que faltan:
df.fillna (df.mean().round (1), inplace=True)
#Para la mediana:
df.fillna (df.median().round (1), inplace=True)
imprimir (df)

Insertar el valor modal como lo hizo para la media y la mediana anteriores no captura todo el DataFrame. Pero puede insertarlo en una columna específica en su lugar, digamos, columna C:

df['C'].fillna (df['C'].modo()[0], en el lugar=Verdadero)

Dicho esto, todavía es posible insertar el valor modal de cada columna en las filas que faltan a la vez usando un bucle for:

para i en df.columns:
df[i].fillna (df[i].mode()[0], inplace=True)
imprimir (df)

Si desea ser específico de la columna al insertar la media, la mediana o el modo:

df.fillna({"A":df['A'].mean(), 
"B": df['B'].mediana(),
"C": df['C'].modo()[0]},
en el lugar = Verdadero)
imprimir (df)

Rellenar filas nulas con valores usando relleno

Esto implica especificar el método de relleno en el interior como el relleno () función. Este método llena cada fila faltante con el valor de la más cercana arriba de ella.

También podría llamarlo relleno hacia adelante:

df.fillna (método='rellenar', inplace=True)

Rellene las filas que faltan con valores usando bfill

Aquí, reemplazará el llenar método mencionado anteriormente con bllenar. Rellena cada fila que falta en el DataFrame con el valor más cercano debajo de ella.

Este se llama llenado hacia atrás:

df.fillna (método='bfill', inplace=True)

2. El método replace()

Puedes reemplazar el Yaya valores en una columna específica con la media, la mediana, la moda o cualquier otro valor.

Relacionado:Comandos pandas para manipular tramas de datos

Vea cómo funciona esto reemplazando las filas nulas en una columna nombrada con su media, mediana o moda:

importar pandas
importar numpy #esto requiere que hayas instalado previamente numpy
#Reemplazar los valores nulos con la media:
df['A'].replace([numpy.nan], df[A].mean(), inplace=True)
#Reemplazar la columna A con la mediana:
df['B'].replace([numpy.nan], df[B].median(), inplace=True)
#Utilice el valor modal para la columna C:
df['C'].replace([numpy.nan], df['C'].mode()[0], inplace=True)
imprimir (df)

3. Rellenar los datos que faltan con interpolar ()

El interpolar() La función usa los valores existentes en el DataFrame para estimar las filas que faltan.

Ejecute el siguiente código para ver cómo funciona esto:

#Interpolar hacia atrás a lo largo de la columna:
df.interpolate (método = 'lineal', limit_direction = 'hacia atrás', en el lugar = Verdadero)
#Interpolar en orden de avance a lo largo de la columna:
df.interpolar (método = 'lineal', limit_direction = 'adelante', en el lugar = Verdadero)

Tratar las filas que faltan con cuidado

Si bien solo hemos considerado completar los datos faltantes con valores predeterminados como promedios, moda y otros métodos, existen otras técnicas para corregir los valores faltantes. Los científicos de datos, por ejemplo, a veces eliminan estas filas faltantes, según el caso.

Además, es esencial pensar críticamente sobre su estrategia antes de usarla. De lo contrario, podría obtener resultados de predicción o análisis no deseados. Algunas estrategias iniciales de visualización de datos podrían ayudar.

Cómo dibujar gráficos en Jupyter Notebook

Muestre sus datos con los gráficos de Jupyter Notebook.

Leer siguiente

CuotaPíoCorreo electrónico
Temas relacionados
  • Programación
  • Pitón
  • Programación
  • base de datos
Sobre el Autor
Idowu Omisola (125 artículos publicados)

A Idowu le apasiona la tecnología inteligente y la productividad. En su tiempo libre, juega con la codificación y cambia al tablero de ajedrez cuando está aburrido, pero también le encanta romper con la rutina de vez en cuando. Su pasión por mostrarle a la gente el camino alrededor de la tecnología moderna lo motiva a escribir más.

Más de Idowu Omisola

Suscríbete a nuestro boletín

¡Únase a nuestro boletín para obtener consejos técnicos, reseñas, libros electrónicos gratuitos y ofertas exclusivas!

Haga clic aquí para suscribirse