Python, como lenguaje, es valioso sin medida, especialmente cuando desea trabajar con datos estructurados. Dado que las personas almacenan una gran cantidad de datos en archivos de Excel, es imperativo consolidar varios archivos para ahorrar tiempo y esfuerzo.
Python te permite hacer exactamente eso; no importa cuántos archivos de Excel desee combinar, puede hacerlo con relativa facilidad. Dada su gama de bibliotecas y recursos de terceros, puede importar y usar las herramientas multifacéticas de Python para hacer sus ofertas.
En esta guía, deberá instalar y usar las bibliotecas de Pandas para importar datos a Python antes de consolidarlos.
Instalar bibliotecas Pandas en Python
Pandas es una biblioteca de terceros que puede instalar en Python. Algunos IDE ya tienen Pandas instalados.
Si está utilizando un versión IDE que no viene con Pandas preinstalado, tenga la seguridad de que puede instalarlo directamente en Python.
Aquí se explica cómo instalar Pandas:
pip instalar pandas
Si usa Jupyter Notebook, puede instalar Pandas directamente con el
Comando PIP. En general, cuando ha instalado Jupyter con Anaconda, hay muchas posibilidades de que Pandas ya esté disponible para uso directo.Si no puede llamar a Pandas, puede usar el comando anterior para instalarlos directamente.
Combinando archivos de Excel con Python
Primero, debe crear una carpeta en su ubicación preferida con todos los archivos de Excel. Una vez que la carpeta esté lista, puede comenzar a escribir el código para importar las bibliotecas.
Utilizará dos variables en este código:
- pandas: La biblioteca de Pandas proporciona los marcos de datos para almacenar archivos de Excel.
- sistema operativo: La biblioteca es beneficiosa para leer datos de la carpeta de su máquina
Para importar estas bibliotecas, use estos comandos:
Importar Pandas como pd
Importar sistema operativo
- Importar: Sintaxis de Python utilizada para importar las bibliotecas en Python
- pandas: nombre de la biblioteca
- PD: Alias dado a la biblioteca
- sistema operativo: Una biblioteca para acceder a la carpeta del sistema.
Una vez que haya importado las bibliotecas, cree dos variables para almacenar la ruta del archivo de entrada y salida. La ruta del archivo de entrada es necesaria para acceder a la carpeta de archivos. La ruta del archivo de salida es necesaria ya que el archivo combinado se exportará allí.
Si está utilizando Python, asegúrese de cambiar la barra diagonal inversa a una barra diagonal (\ para /)
input_file_path = "C:/Usuarios/gaurav/OneDrive/Escritorio/Archivos de Excel/"
ruta_archivo_salida = "C:/Usuarios/gaurav/OneDrive/Escritorio/"
Anexar el / al final también para completar los caminos.
Los archivos de la carpeta están disponibles en una lista. Cree una lista para almacenar todas las referencias de archivos de la carpeta de entrada usando el listdir función de la sistema operativo Biblioteca.
Si no está seguro de las funciones disponibles dentro de una biblioteca, puede utilizar el directorio función con el nombre de la biblioteca. Por ejemplo, para verificar la versión exacta de la función listdir, puede usar el comando de la siguiente manera:
directorio (SO)
La salida consistirá en todas las funciones asociadas disponibles dentro de la biblioteca del sistema operativo. La función listdir es una de las muchas funciones disponibles en esta biblioteca.
Cree una nueva variable para almacenar los archivos de entrada de la carpeta.
excel_file_list = os.listdir (ruta_archivo_entrada)
Imprima esta variable para ver los nombres de los archivos almacenados en la carpeta. Todos los archivos almacenados en la carpeta se muestran una vez que utiliza la función de impresión.
imprimir (excel_file_list)
A continuación, debe agregar un nuevo marco de datos para almacenar cada archivo de Excel. Imagine un marco de datos como un contenedor para almacenar datos. Aquí está el comando para crear un marco de datos.
df = pd. Marco de datos()
- d.f.: Variable para almacenar el valor del DataFrame
- PD: alias para el biblioteca de pandas
- Marco de datos: Sintaxis predeterminada para agregar un marco de datos
La carpeta de entrada tiene tres .xlsx archivos en este ejemplo. Los nombres de los archivos son:
Archivo1_excel.xlsx
Archivo2_excel.xlsx
Archivo3_excel.xlsx
Para abrir cada archivo de esta carpeta, debe ejecutar un bucle. El bucle se ejecutará para cada uno de los archivos de la lista creada anteriormente.
Así es como puedes hacerlo:
para excel_files en excel_file_list:
A continuación, es necesario verificar las extensiones de los archivos, ya que el código solo abrirá archivos XLSX. Para comprobar estos archivos, puede utilizar un Si declaración.
Utilizar el termina con función para este propósito, de la siguiente manera:
para excel_files en excel_file_list:
si excel_files.termina con(".xlsx"):
- archivos_excel: Lista con todos los valores del archivo
- termina con: Función para comprobar la extensión de los archivos.
- ("".xlsx"): Este valor de cadena puede cambiar, según lo que desee buscar
Ahora que ha identificado los archivos de Excel, puede crear un nuevo marco de datos para leer y almacenar los archivos individualmente.
para excel_files en excel_file_list:
si excel_files.termina con(".xlsx"):
df1 = pd.read_excel (ruta_archivo_entrada+archivos_excel)
- df1: Nuevo marco de datos
- PD: biblioteca de pandas
- leer_excel: Función para leer archivos de Excel dentro de la biblioteca Pandas
- ruta_archivo_entrada: Ruta de la carpeta donde se almacenan los archivos
- archivos_excel: Cualquier variable que se use en el bucle for
Para comenzar a agregar los archivos, debe usar el adjuntar función.
para excel_files en excel_file_list:
si excel_files.termina con(".xlsx"):
df1 = pd.read_excel (ruta_archivo_entrada+archivos_excel)
df = df.append (df1)
Finalmente, ahora que el marco de datos consolidado está listo, puede exportarlo a la ubicación de salida. En este caso, está exportando el marco de datos a un archivo XLSX.
df.to_excel (output_file_path+"Consolidated_file.xlsx")
- d.f.: Marco de datos para exportar
- para sobresalir: Comando utilizado para exportar los datos.
- ruta_archivo_salida: Ruta definida para almacenar la salida
- Archivo_consolidado.xlsx: Nombre del archivo consolidado
Ahora, veamos el código final:
#Pandas se usa como marco de datos para manejar archivos de Excel
importar pandas como pd
importar sistema operativo# cambie la barra inclinada de "\" a "/", si está utilizando dispositivos Windows
input_file_path = "C:/Usuarios/gaurav/OneDrive/Escritorio/Archivos de Excel/"
ruta_archivo_salida = "C:/Usuarios/gaurav/OneDrive/Escritorio/"#crea una lista para almacenar todas las referencias de archivos de la carpeta de entrada usando la función listdir de la biblioteca os.
#Para ver el contenido de una biblioteca (como la función listdir, puede usar la función dir en el nombre de la biblioteca).
#Usar dir (nombre_biblioteca) para listar contenidosexcel_file_list = os.listdir (ruta_archivo_entrada)
#imprimir todos los archivos almacenados en la carpeta, después de definir la lista
excel_file_list#Una vez que se abre cada archivo, use la función de agregar para comenzar a consolidar los datos almacenados en varios archivos
#crea un nuevo marco de datos en blanco para manejar las importaciones de archivos de Excel
df = pd. Marco de datos()#Ejecutar un ciclo for para recorrer cada archivo en la lista
para excel_files en excel_file_list:
#compruebe solo los archivos con el sufijo .xlsx
si excel_files.termina con(".xlsx"):
#crea un nuevo marco de datos para leer/abrir cada archivo de Excel de la lista de archivos creados anteriormente
df1 = pd.read_excel (ruta_archivo_entrada+archivos_excel)
#agregar cada archivo en el marco de datos vacío original
df = df.append (df1)
#transferir la salida final a un archivo de Excel (xlsx) en la ruta de salida
df.to_excel (output_file_path+"Consolidated_file.xlsx")
Uso de Python para combinar varios libros de Excel
Python's Pandas es una excelente herramienta tanto para principiantes como para usuarios avanzados. La biblioteca es utilizada ampliamente por desarrolladores que quieren dominar Python.
Incluso si es un principiante, puede beneficiarse enormemente al aprender los matices de Pandas y cómo se usa la biblioteca dentro de Python.
Acostúmbrese a Pandas con estas operaciones para principiantes.
Leer siguiente
- Programación
- Pitón
- Microsoft Excel
- Hoja de cálculo
Gaurav Siyal tiene dos años de experiencia en redacción, escribiendo para una serie de firmas de marketing digital y documentos del ciclo de vida del software.
Suscríbete a nuestro boletín
¡Únase a nuestro boletín para obtener consejos técnicos, reseñas, libros electrónicos gratuitos y ofertas exclusivas!
Haga clic aquí para suscribirse