Para analizar un conjunto de datos, primero debe comprender los datos. A veces, es posible que no tenga conocimiento previo de un conjunto de datos, lo que le impide aprovecharlo al máximo. Como analista de datos, puede utilizar el análisis de datos exploratorios (EDA) para obtener conocimiento de su conjunto de datos antes del análisis en profundidad.

El análisis exploratorio de datos (EDA) investiga un conjunto de datos para obtener información significativa. El proceso de realizar EDA implica consultar información sobre la estructura y el contenido de un conjunto de datos.

Instalación del paquete Gota

El paquete Gota es el más popular para análisis de los datos en Ir; es como el Paquete Python Pandas pero para ir. El paquete Gota contiene muchos métodos para analizar conjuntos de datos y leer formatos JSON, CSV y HTML.

Ejecute este comando en su terminal en el directorio donde ha inicializado un archivo de módulo Go:

Vamos obtener -u github.com/Vamos-gota/gota

El comando instalará Gota en el directorio local, listo para que importe el paquete para usarlo.

instagram viewer

Al igual que Pandas, Gota admite operaciones de series y marcos de datos. Hay dos subpaquetes en el paquete Gota: la serie y el paquete de marco de datos. Puede importar uno o ambos, según sus necesidades.

importar (
"github.com/Vamos-gota/gota/serie"
"github.com/Vamos-gota/gota/marco de datos"
)

Leer un conjunto de datos usando el paquete Gota

Puede usar cualquier archivo CSV que desee, pero los siguientes ejemplos muestran resultados de un conjunto de datos de Kaggle, que contiene datos de precios de portátiles.

Gota le permite leer formatos de archivo CSV, JSON y HTML para crear marcos de datos usando el LeerCSV, LeerJSON, y LeerHTML métodos. Así es como carga un archivo CSV en un objeto de marco de datos:

archivo, error: = os. Abrir("/ruta/al/archivo-csv.csv")

si error! = nulo {
fmt. Println("Error al abrir el archivo")
}

trama de datos := trama de datos. Leer CSV (archivo)
fmt. Println (marco de datos)

Puedes usar el Abierto metodo de la sistema operativo paquete para abrir un archivo CSV. El método ReadCSV lee el objeto de archivo y devuelve un objeto de marco de datos.

Cuando imprime este objeto, la salida está en un formato tabular. Puede manipular aún más el objeto del marco de datos utilizando los diversos métodos que proporciona Gota.

El objeto solo imprimirá algunas de las columnas si un conjunto de datos tiene más de un valor establecido.

Obtener la dimensión del conjunto de datos

Las dimensiones de un marco de datos son el número de filas y columnas que contiene. Puede obtener estas dimensiones utilizando el atenúa método del objeto dataframe.

variable filas, columnas = marco de datos. Dimensiones ()

Reemplace una de las variables con un guión bajo para obtener solo la otra dimensión. También puede consultar el número de filas y columnas individualmente, utilizando el Fila y Ncol métodos.

variable filas = marco de datos. Fila()
variable columnas = marco de datos. Ncol()

Obtener los tipos de datos de las columnas

Deberá conocer los tipos de datos compuestos en las columnas de un conjunto de datos para analizarlo. Puede obtenerlos usando el Tipos método de su objeto de marco de datos:

variable tipos = marco de datos. Tipos()
fmt. Println (tipos)

El método Types devuelve un segmento que contiene los tipos de datos de la columna:

Obtener los nombres de las columnas

Necesitará los nombres de las columnas para seleccionar columnas específicas para las operaciones. Puedes usar el nombres método para obtenerlos.

variable nombres de columna: = marco de datos. Nombres()
fmt. Println (nombres de columna)

El método Names devuelve una porción de los nombres de las columnas.

Comprobación de valores faltantes

Es posible que tenga un conjunto de datos que contenga valores nulos o no numéricos. Puede verificar tales valores usando el HasNaN y IsNaN métodos de un objeto de serie:

aCol := marco de datos. Col("tamaño_pantalla")
variable tieneNulo = aCol. TieneNaN()
variable no esNúmero = aCol. esNaN()

HasNan comprueba si una columna contiene elementos nulos. IsNaN devuelve una porción de valores booleanos que representan si cada valor de la columna es un número.

Realización de análisis estadísticos descriptivos

Análisis estadístico descriptivo le ayuda a comprender la distribución de las columnas numéricas. Utilizando el Describir método, puede generar un análisis estadístico descriptivo de su conjunto de datos:

descripción := marco de datos. Describir()
fmt. Imprimir (descripción)

El método Describe devuelve métricas como la media, la desviación estándar y los valores máximos de las columnas en un conjunto de datos. Los resume en un formato tabular.

También puede ser específico y centrarse en columnas y métricas seleccionando una columna en particular y luego consultando la métrica que desea. Primero debe obtener la serie que representa una columna específica, luego usar sus métodos de esta manera:

aCol := marco de datos. Col("tamaño_pantalla")
variable media = aCol. Significar()
variable mediana = aCol. Mediana()
variable mínimo = aCol. Min()
variable desviación estándar = aCol. DesvStd()
variable máximo = aCol. máx()
variable cuantiles25 = aCol. cuantil(25.0)

Estos métodos reflejan los resultados del análisis estadístico descriptivo que realiza Describe.

Obtener los elementos en una columna

Una de las tareas finales que querrá realizar es verificar los valores en una columna para obtener una descripción general. Puedes usar el Registros método para ver los valores de una columna.

aCol := marco de datos. Col("marca")
fmt. Imprimir (aCol. Registros())

Este método devuelve una porción de cadenas que contienen los valores en la columna seleccionada:

Exportación de un marco de datos Gota a un archivo

Si elige ir más allá y usar el paquete Gota para un análisis de datos completo, deberá guardar los datos en archivos. Puedes usar el EscribirCSV y EscribirJSON métodos de marco de datos para exportar archivos. Los métodos toman un archivo que creará usando el sistema operativo paquete Crear método.

Así es como puede exportar un marco de datos usando el paquete Gota.

trama de datos := trama de datos. Leer CSV (archivo)
archivo de salida, err := os. Crear("salida.csv")

si error! = nulo {
Iniciar sesión. fatal (error)
}

err = marco de datos. WriteCSV (archivo de salida)

si error! = nulo {
Iniciar sesión. Fatalln("Hubo un error al escribir el contenido del marco de datos en el archivo")
}

los marco de datos variable es una representación del marco de datos. Cuando usas el Crear metodo de la sistema operativo paquete, crea un nuevo archivo vacío con el nombre especificado y devuelve el archivo. El método WriteCSV toma la instancia del archivo y devuelve un error o nulo si no hay error.

El análisis exploratorio de datos es importante

La comprensión de los datos y los conjuntos de datos es esencial para los analistas de datos y los especialistas en aprendizaje automático. Es una operación crítica en su ciclo de trabajo, y el análisis exploratorio de datos es una de las técnicas que utilizan para lograrlo.

Hay más en el paquete Gota. Puede usarlo para varias funciones de gestión de datos de la misma manera que usaría la biblioteca Python Pandas para el análisis de datos. Sin embargo, Gota no admite tanta funcionalidad como Pandas.