Internet Movie Database (IMDb) es la base de datos en línea más grande que contiene información relacionada con películas, series de televisión, videos caseros, videojuegos y contenido de transmisión. La base de datos en línea contiene millones de registros precisos que puede usar para realizar análisis de datos.
Cinemagoer (anteriormente conocido como IMDbPY) es una biblioteca de Python para administrar y recuperar los datos de la base de datos de películas de IMDb. Puede acceder a datos sobre películas, personas y empresas, que pueden utilizarse posteriormente para el análisis.
Instalación de bibliotecas necesarias
Necesitas instalar el cinéfilo Biblioteca de Python para acceder a la IMDb base de datos. Ejecute el siguiente comando en el símbolo del sistema para instalar la biblioteca:
pepita instalar cinéfilo
Debes tener pip instalado en su sistema para instalar bibliotecas externas de Python.
El código utilizado en este proyecto está disponible en un repositorio GitHub y es gratis para su uso bajo la licencia MIT.
Extraer datos de IMDb usando Python
Debe importar la biblioteca cinemagoer antes de usarla en su código.
de imdb importar cinéfilo
ia = cinéfilo()
El código anterior importa la biblioteca cinemagoer y crea una instancia de la clase cinemagoer.
Búsqueda de películas
Puede buscar películas con un título dado (o similar) usando el buscar_película() método. Por ejemplo, si desea buscar películas que tengan el título "rock", debe ejecutar el siguiente código:
de imdb importar cinéfilo
# Creando una instancia de la clase Cinemagoer
ia = cinéfilo()
# Buscando películas que tengan rock en su nombre
películas = ia.buscar_película('roca')
imprimir(películas[0])
Esto debería imprimir la primera película que encuentre, por ejemplo:
Puede obtener una película por su IMDb ID. A continuación, puede extraer más información, como los nombres de los directores y los géneros. Necesitas recorre la lista para obtener información individual.
de imdb importar cinéfilo
# Creando una instancia de la clase Cinemagoer
ia = cinéfilo()# Obtener la película por ID de IMDb
película = ia.get_movie('0468569')
imprimir(película)# Imprimiendo los nombres de los directores de la pelicula
imprimir('Directores:')para director en película['directores']:
imprimir (director['nombre'])# imprimir los géneros de la película
imprimir('Géneros:')
por género en película['géneros']:
imprimir(género)
En la salida, debería ver el nombre de la película dada, su director (s) y su género (s):
Buscando a una Persona
Puedes buscar personas usando el buscar_persona() método. Por ejemplo, si desea buscar "Heath", debe ejecutar el siguiente código:
de imdb importar cinéfilo
# Creando una instancia de la clase Cinemagoer
ia = cinéfilo()
# Buscando personas que tengan a Heath en sus nombres
personas = ia.buscar_persona('Brezo')
imprimir(personas[0])
Verá el nombre de la primera persona que coincida con la búsqueda:
Buscando Empresas
Puede buscar empresas utilizando el buscar_empresa() método. Por ejemplo, si desea buscar "Universal", debe ejecutar el siguiente código:
de imdb importar cinéfilo
# Creando una instancia de la clase Cinemagoer
ia = cinéfilo()
# Búsqueda de empresas que tengan Universal en sus nombres
empresas = ia.buscar_empresa('Universal')
imprimir(compañías)
Obtendrá la lista de todas las empresas que tienen Universal en su nombre.
También puede recuperar los datos de una persona y empresa utilizando su ID.
de imdb importar cinéfilo
# Creando una instancia de la clase Cinemagoer
ia = cinéfilo()# Obtener datos de personas por ID
persona = ia.get_person('0005132')
imprimir (persona['nombre'])
imprimir (persona['fecha de nacimiento'])
# Obtener datos de la empresa por ID
empresa = ia.get_company('0005073')
imprimir (empresa['nombre'])
El resultado mostrará detalles de la persona y el nombre de una empresa:
Búsqueda de películas superiores e inferiores
Puede recuperar los datos de las 250 mejores películas y las 100 últimas películas usando el get_top250_movies() y get_bottom100_movies() métodos, respectivamente:
de imdb importar cinéfilo
# Creando una instancia de la clase Cinemagoer
ia = cinéfilo()# Encontrar las mejores 250 películas
arriba = ia.get_top250_movies()
imprimir(arriba[0])
# Encontrar las 100 mejores películas
inferior = ia.get_bottom100_movies()
imprimir(abajo[0])
En respuesta, verás el nombre de la mejor película y el nombre de la peor:
La biblioteca cinemagoer también proporciona algunos otros métodos como get_top250_tv(), obtener_populares100_películas(), y get_top250_indian_movies().
El análisis de datos es la evaluación de datos utilizando herramientas analíticas o estadísticas para extraer información. La popularidad del análisis de datos crece cada día. Ahora lo utilizan empresas, empresas de marketing y equipos deportivos. El proceso completo de análisis de datos incluye la definición de objetivos, la formulación de preguntas, la recopilación de datos, la depuración de datos, el análisis de datos y los resultados finales.
Puede obtener conjuntos de datos para sus proyectos utilizando bibliotecas de Python como Cinemagoer o a través de plataformas en línea como Kaggle. Además de lenguajes completos como Python y R, puede usar otras herramientas como Microsoft Excel, Tableau y Stata para realizar análisis de datos.