Los grandes activos de datos son complicados, especialmente cuando tiene que extraerlos de sitios web, servidores u otras fuentes de datos.
Las aplicaciones basadas en la interfaz de usuario como MS Excel son buenas para manejar conjuntos de datos simples, pero pueden tener problemas cuando los datos aumentan. Esta es una buena razón para pasarse a Python para realizar operaciones más complejas basadas en datos.
La biblioteca de terceros de Python, Pandas, ayuda en gran medida a ordenar rápidamente sus conjuntos de datos existentes. Si está buscando ordenar sus datos en Python, este artículo analiza algunas formas de lograr esta tarea.
Requisitos previos para usar Python para ordenar datos
Antes de ordenar sus datos en Python, debe cumplir con algunos requisitos previos:
- Descargar un IDE de Python. Puedes usar un IDE compatible con Python, como Jupyter Notebook, PyCharm y Spyder, entre otros. Cada uno de estos es compatible con todas las versiones de Python.
- instalar pandas. Necesitarás el paquete pandas que puedes instalar usando PIP o su método preferido.
- Conjunto de datos de muestra. Descargar un conjunto de datos de muestra para practicar los códigos enumerados. Alternativamente, puede utilizar estos procedimientos en sus datos exclusivos.
Importación de la biblioteca Pandas en Python
Pandas es una biblioteca de Python de terceros que puede usar para manejar Excel, CSV y otros formatos de datos.
Para trabajar con un archivo de Excel de muestra, comience importando la biblioteca pandas. Después de eso, usarás el procedimiento de importación para leer los datos de Excel en Python.
Para importar la biblioteca
importar pandas como p.d.
Crear un nuevo marco de datos para cargar los datos de Excel
archivo = "Muestra - Superstore.xls"
df = pd.read_excel (archivo)
d.f..cabeza()
Dónde:
- d.f. es un objeto DataFrame que almacena los datos importados.
- p.d. es un alias para la biblioteca Pandas.
- leer_excel es un método para leer el archivo de Excel en Python.
- expediente es una ruta al archivo de Excel.
- cabeza es un método que devuelve las primeras cinco filas del DataFrame.
Una vez que su programa haya cargado los datos, puede usar los muchos métodos DataFrame disponibles para ordenarlos de varias maneras.
1. Ordenar por una sola columna en un marco de datos
Dado que sus datos tendrán muchas filas y columnas, a menudo querrá ordenar los datos en función de una columna o columnas específicas.
Python ordena los datos en orden ascendente de forma predeterminada. Si desea cambiar el orden de clasificación, debe mencionarlo explícitamente en su código.
Ordenar por una sola columna (orden ascendente)
df.ordenar_valores (por = "Identificación del cliente")
Ordenar por una sola columna (orden descendente)
Selecciona el ascendente parámetro a Falso para ordenar su columna en orden descendente.
df.ordenar_valores (por = "Identificación del cliente", ascendente=Falso)
Dónde:
- d.f. es un objeto DataFrame que contiene los datos.
- ordenar_valores es un método para ordenar por valores de datos.
- por es un parámetro para definir el nombre de la columna.
- ascendente es un parámetro para definir el orden de clasificación.
2. Ordenar varias columnas en un marco de datos
Si sus requisitos lo requieren, también puede ordenar su(s) marco(s) de datos en función de varias columnas a la vez. En tal escenario, debe definir las referencias de columna en una lista.
Ordenar por múltiples columnas ascendentes
df.sort_values (por = ["Identificación del cliente", "Ciudad"])
Ordenar por columnas múltiples descendentes
Usa la función ascendente = Falso para ordenar sus columnas en orden descendente. Recuerde, debe especificar los nombres de las columnas dentro de una lista para ordenarlas simultáneamente.
df.sort_values (por = ["Identificación del cliente", "Ciudad"], ascendente = Falso)
Clasificación por varias columnas en diferentes órdenes de clasificación
Con los conceptos básicos de clasificación fuera del camino, ¿qué sucede cuando desea ordenar una columna en orden descendente y otra en orden ascendente? Debe modificar ligeramente su código para incorporar estos requisitos.
Por ejemplo, para ordenar la Región y Ciudad columnas en orden descendente y ascendente, respectivamente:
df.sort_values (por = ["Región", "Ciudad"], ascendente = [Falso, Verdadero])
La explicación de este código es simple; usted define el nombre de DataFrame y pasa el ordenar_valores junto con los nombres de las columnas en una lista. Deberías usar booleano valores para especificar el orden de clasificación.
Llamar a la función de esta manera significa que Python ordenará primero por la columna Región de DataFrame en orden descendente. Luego, las filas con una Región idéntica se ordenarán más por la columna Ciudad, en orden ascendente.
3. Cómo ordenar columnas en un marco de datos por índice
La variable de índice es el valor predeterminado asignado a cada fila dentro de un marco de datos de Python. Puede definir los valores de índice o dejar que Python establezca un valor de índice por su cuenta.
Para ordenar los datos por su valor de índice, puede utilizar el sort_index función. Esta función ordena según el índice en lugar de los valores contenidos en el conjunto de datos original.
d.f..sort_index()
Al igual que con sort_values, puede pasar un ascendente parámetro para especificar la dirección de la ordenación. Por ejemplo, pase un valor de Falso para ordenar los datos en orden descendente:
df.sort_index (ascendente = Falso)
4. Ordenar columnas en un marco de datos en lugar de filas
En lugar de ordenar las filas en un DataFrame, puede ordenar sus columnas. Puede hacerlo llamando al método sort_index y pasándole un eje parámetro con un valor de 1:
df.sort_index (eje=1)
Este paso ordena el DataFrame, por sus columnas, en orden ascendente. Para ordenar las columnas de DataFrame en orden descendente, puede especificar el orden de clasificación en su paso de clasificación.
df.sort_index (eje=1, ascendente = Falso)
5. Modificar el marco de datos mientras lo ordena
Los dos métodos de clasificación funcionan devolviendo una copia de los datos originales, en su estado recién ordenado. Para ahorrar espacio de almacenamiento, o simplemente para escribir un código más conciso, puede modificar los datos originales de DataFrame en su lugar. Cada método acepta un en su lugar parámetro booleano que modifica los datos en lugar de devolver una copia modificada.
df.sort_values (por = ["Identificación del cliente", "Ciudad"], ascendente = Falso, en el lugar = Verdadero)
Aprendiendo a ordenar datos en Python
Python replica muchas de las funciones integradas de Excel con unas pocas líneas de código. Desde procedimientos de clasificación hasta la creación de tablas dinámicas elaboradas en sus datos, usted lo nombra y puede hacerlo en Python.
Si todavía es nuevo en Python y está aprendiendo las cuerdas, estos pasos mejorarán sus habilidades de codificación con relativa facilidad.