La insuficiencia de datos suele ser uno de los principales contratiempos de la mayoría de los proyectos de ciencia de datos. Sin embargo, saber cómo recopilar datos para cualquier proyecto en el que desee embarcarse es una habilidad importante que debe adquirir como científico de datos.

Los científicos de datos y los ingenieros de aprendizaje automático ahora utilizan técnicas modernas de recopilación de datos para adquirir más datos para entrenar algoritmos. Si planea embarcarse en su primer proyecto de ciencia de datos o aprendizaje automático, también debe poder obtener datos.

¿Cómo puedes facilitarte el proceso? Echemos un vistazo a algunas técnicas modernas que puede utilizar para recopilar datos.

Por qué necesita más datos para su proyecto de ciencia de datos

Los algoritmos de aprendizaje automático dependen de los datos para ser más precisos, precisos y predictivos. Estos algoritmos se entrenan utilizando conjuntos de datos. El proceso de entrenamiento es un poco como enseñarle a un niño pequeño el nombre de un objeto por primera vez, y luego permitirle identificarlo solo cuando lo vuelva a ver.

instagram viewer

Los seres humanos solo necesitan unos pocos ejemplos para reconocer un nuevo objeto. Eso no es así para una máquina, ya que necesita cientos o miles de ejemplos similares para familiarizarse con un objeto.

Estos ejemplos u objetos de entrenamiento deben venir en forma de datos. Luego, un algoritmo de aprendizaje automático dedicado pasa por ese conjunto de datos llamado conjunto de entrenamiento y aprende más sobre él para ser más preciso.

Eso significa que si no proporciona suficientes datos para entrenar su algoritmo, es posible que no obtenga el resultado correcto al final de su proyecto porque la máquina no tiene suficientes datos de los que aprender.

Por lo tanto, es necesario obtener datos adecuados para mejorar la precisión de su resultado. Veamos algunas estrategias modernas que puede utilizar para lograrlo a continuación.

1. Extracción de datos directamente desde una página web

El web scraping es una forma automatizada de obtener datos de la web. En su forma más básica, el web scraping puede implicar copiar y pegar los elementos de un sitio web en un archivo local.

Sin embargo, el web scraping también implica escribir scripts especiales o usar herramientas dedicadas para extraer datos de una página web directamente. También podría implicar una recopilación de datos más profunda utilizando Interfaces de programación de aplicaciones (API) como Serpstack.

Extraiga datos útiles de los resultados de la búsqueda con la API de Serpstack

Con la API serpstack, puede obtener información fácilmente de las páginas de resultados de Google y otros motores de búsqueda.

Aunque algunas personas creen que el web scraping podría provocar la pérdida de propiedad intelectual, eso solo puede suceder cuando las personas lo hacen de manera maliciosa. El web scraping es legal y ayuda a las empresas a tomar mejores decisiones mediante la recopilación de información pública sobre sus clientes y competidores.

Relacionado: ¿Qué es Web Scraping? Cómo recopilar datos de sitios web

Por ejemplo, puede escribir un script para recopilar datos de las tiendas en línea para comparar precios y disponibilidad. Si bien puede ser un poco más técnico, también puede recopilar medios sin procesar como archivos de audio e imágenes en la web.

Eche un vistazo al código de ejemplo a continuación para echar un vistazo al web scraping con Python beautifulsoup4 Biblioteca de analizador HTML.

desde bs4 importar BeautifulSoup
desde urllib.request import urlopen
url = "Introduzca aquí la URL completa de la página web de destino"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
imprimir (webData.get_text ())

Antes de ejecutar el código de ejemplo, deberá instalar la biblioteca. Crea un entorno virtual desde su línea de comando e instale la biblioteca ejecutando pip instalar beautifulsoup4.

2. A través de formularios web

También puede aprovechar los formularios en línea para la recopilación de datos. Esto es más útil cuando tiene un grupo objetivo de personas del que desea recopilar los datos.

Una desventaja de enviar formularios web es que es posible que no recopile tantos datos como desee. Es bastante útil para pequeños proyectos o tutoriales de ciencia de datos, pero es posible que tenga limitaciones al intentar llegar a un gran número de personas anónimas.

Aunque existen servicios de recopilación de datos en línea de pago, no se recomiendan para las personas, ya que en su mayoría son demasiado costosos, excepto si no le importa gastar algo de dinero en el proyecto.

Existen varios formularios web para recopilar datos de personas. Uno de ellos es Google Forms, al que puede acceder yendo a formularios.google.com. Usted puede utilizar Formularios de Google para recopilar información de contacto, datos demográficos y otros datos personales.

Una vez que cree un formulario, todo lo que necesita hacer es enviar el enlace a su público objetivo por correo, SMS o cualquier medio disponible.

Sin embargo, Google Forms es solo un ejemplo de formularios web populares. Existen muchas alternativas que también hacen excelentes trabajos de recopilación de datos.

También puede recopilar datos a través de medios de comunicación social como Facebook, LinkedIn, Instagram y Twitter. Obtener datos de las redes sociales es un poco más técnico que cualquier otro método. Está completamente automatizado e implica el uso de diferentes herramientas API.

Puede ser difícil extraer datos de las redes sociales, ya que están relativamente desorganizadas y hay una gran cantidad de ellas. Si se organiza correctamente, este tipo de conjunto de datos puede ser útil en proyectos de ciencia de datos que involucran análisis de sentimientos en línea, análisis de tendencias del mercado y marca en línea.

Por ejemplo, Twitter es un ejemplo de una fuente de datos de redes sociales donde puede recopilar un gran volumen de conjuntos de datos con su tweepy Paquete de la API de Python, que puede instalar con el pip instalar tweepy mando.

Para un ejemplo básico, el bloque de código para extraer los Tweets de la página de inicio de Twitter se ve así:

importar tweepy
importar re
myAuth = tweepy. OAuthHandler (pegue la clave del consumidor aquí, pegue la clave secreta del consumidor aquí)
auth.set_access_token (pegue access_token aquí, pegue access_token_secret aquí)
autenticar = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
para objetivos en target_tweet:
imprimir (texto de destino)

Puedes visitar el docs.tweepy.org sitio web para acceder al tweepy documentación para obtener más detalles sobre cómo usarlo. Para utilizar la API de Twitter, debe solicitar una cuenta de desarrollador dirigiéndose a la developer.twitter.com sitio web.

Facebook es otra poderosa plataforma de redes sociales para recopilar datos. Utiliza un punto final de API especial llamado Facebook Graph API. Esta API permite a los desarrolladores recopilar datos sobre el comportamiento de usuarios específicos en la plataforma de Facebook. Puede acceder a la documentación de la API de Facebook Graph en developers.facebook.com para obtener más información al respecto.

Una explicación detallada de la recopilación de datos de redes sociales con API está más allá del alcance de este artículo. Si está interesado en obtener más información, puede consultar la documentación de cada plataforma para conocerlos en profundidad.

Además de escribir scripts para conectarse a un punto final de API, los datos de las redes sociales recopilan herramientas de terceros como Experto en raspado y muchos otros también están disponibles. Sin embargo, la mayoría de estas herramientas web tienen un precio.

4. Recopilación de conjuntos de datos preexistentes de fuentes oficiales

También puede recopilar conjuntos de datos preexistentes de fuentes autorizadas. Este método implica visitar bancos de datos oficiales y descargar conjuntos de datos verificados de ellos. A diferencia del web scraping y otras opciones, esta opción es más rápida y requiere poco o ningún conocimiento técnico.

Los conjuntos de datos de este tipo de fuentes suelen estar disponibles en formatos CSV, JSON, HTML o Excel. Algunos ejemplos de fuentes de datos autorizadas son Banco Mundial, UNdatay varios otros.

Algunas fuentes de datos pueden hacer que los datos actuales sean privados para evitar que el público acceda a ellos. Sin embargo, sus archivos suelen estar disponibles para su descarga.

Más fuentes de conjuntos de datos oficiales para su proyecto de aprendizaje automático

Esta lista debería brindarle un buen punto de partida para obtener diferentes tipos de datos con los que trabajar en sus proyectos.

  • Portal de datos abiertos de la UE
  • Conjuntos de datos de Kaggle
  • Búsqueda de conjuntos de datos de Google
  • Centro de datos
  • Registro de datos abiertos en AWS
  • Agencia gubernamental europea: datos y mapas
  • Datos abiertos de Microsoft Research
  • Impresionante repositorio de conjuntos de datos públicos en GitHub
  • Datos. Gov: el hogar de los datos abiertos del gobierno de EE. UU.

Hay muchas más fuentes que esta, y una búsqueda cuidadosa lo recompensará con datos perfectos para sus propios proyectos de ciencia de datos.

Combine estas técnicas modernas para obtener mejores resultados

La recopilación de datos puede ser tediosa cuando las herramientas disponibles para la tarea son limitadas o difíciles de comprender. Si bien los métodos más antiguos y convencionales aún funcionan bien y son inevitables en algunos casos, los métodos modernos son más rápidos y confiables.

Sin embargo, en lugar de depender de un único método, una combinación de estas formas modernas de recopilar sus datos tiene el potencial de producir mejores resultados.

Correo electrónico
5 herramientas de software de análisis de datos que puede aprender rápidamente

¿Quiere entrar en el análisis de datos? Aquí hay algunas herramientas que debe aprender.

Temas relacionados
  • Programación
  • Pitón
  • Big Data
  • Aprendizaje automático
  • Recolección de datos
  • Análisis de los datos
Sobre el Autor
Idowu Omisola (45 Artículos publicados)

Idowu es un apasionado de la tecnología inteligente y la productividad. En su tiempo libre, juega con la codificación y cambia al tablero de ajedrez cuando está aburrido, pero también le encanta romper con la rutina de vez en cuando. Su pasión por mostrarle a la gente el camino en torno a la tecnología moderna lo motiva a escribir más.

Más de Idowu Omisola

Suscríbete a nuestro boletín

¡Únase a nuestro boletín de noticias para obtener consejos técnicos, reseñas, libros electrónicos gratuitos y ofertas exclusivas!

Un paso más…!

Confirme su dirección de correo electrónico en el correo electrónico que le acabamos de enviar.

.