Anuncio publicitario
Cuando se trata de bases de datos en línea e información que se puede encontrar dentro de lo que comúnmente se conoce como el “web invisible Los 12 mejores motores de búsqueda para explorar la Web invisibleGoogle o Bing no pueden buscar todo. Para explorar la web invisible, debe utilizar estos motores de búsqueda especiales. Lee mas ", No soy el usuario típico. Claro, paso demasiado tiempo revisando bases de datos en línea en lugares como los Archivos Nacionales y la lectura de FOIA de la CIA. sala, pero tengo que decir que nada me emociona más que cuando encuentro una tabla basada en HTML llena de volúmenes de aparentemente complejos y desconectados datos.
El hecho es que las tablas de datos son una mina de oro de verdades importantes. Los datos a menudo son recolectados por ejércitos de gruñidos de recolección de datos con las botas en el suelo. Tiene personas del Censo de EE. UU. Viajando por todo el país para obtener información sobre el hogar y la familia. Tiene grupos ambientalistas sin fines de lucro que recopilan todo tipo de información interesante sobre el medio ambiente, la contaminación, el calentamiento global y más. Y si te gusta lo paranormal o la ufología, también hay tablas de información constantemente actualizadas sobre avistamientos de objetos extraños en el cielo sobre nosotros.
Irónicamente, se podría pensar que cualquier gobierno del mundo estaría interesado en saber qué tipo de Se están viendo naves extranjeras en los cielos de cualquier país, pero aparentemente no, al menos no en los EE. UU. de todas formas. En Estados Unidos, la colección de avistamientos inusuales de artesanías ha sido relegada a equipos de aficionados que acuden en masa a nuevos avistamientos de ovnis como polillas a una llama. Mi interés en estos avistamientos en realidad no se debe a una fascinación por los extraterrestres o las naves de otros planetas, sino a una fascinación científica por los patrones. dónde y por qué más personas ven cosas en el cielo, y si esos avistamientos podrían reflejar algo muy real y mucho más realista en realidad. sobre.
Para explorar los volúmenes de datos recopilados por equipos de aficionados a los ovnis, he desarrollado una forma de importar tablas HTML grandes de datos en una hoja de cálculo de Google y luego manipularlos y analizarlos para extraerlos y descubrirlos información. En este artículo, pretendo mostrarte cómo hacer lo mismo.
Datos HTML importantes en la hoja de cálculo de Google
En este ejemplo, le mostraré cómo importar cualquier dato que pueda estar almacenado en una tabla en cualquier sitio web de Internet, en su hoja de cálculo de Google. Piense en el enorme volumen de datos que está disponible en Internet hoy en día en forma de tablas HTML. Wikipedia solo tiene datos en tablas para temas como calentamiento global, la Oficina del Censo de EE. UU. tiene toneladas de conjuntos de datos de población, y un poco de búsqueda en Google te llevará mucho más allá de eso.
En mi ejemplo, estoy comenzando con una base de datos en el Centro Nacional de Informes OVNI que en realidad parece que podría ser una base de datos de la web profunda de estilo de consulta, pero si observa el Estructuración de URL, en realidad es un sistema de informes basado en web semicomplejo que consta de páginas web estáticas y tablas HTML estáticas, exactamente lo que queremos cuando buscamos datos. importar.
NUForc.org es una de esas organizaciones que sirve como uno de los mayores centros de informes de avistamientos de ovnis. No es el único, pero es lo suficientemente grande como para encontrar nuevos conjuntos de datos con avistamientos actuales para cada mes. Usted elige ver los datos ordenados por criterios como Estado o Fecha, y cada uno de ellos se proporciona en forma de una página estática. Si ordena por fecha y luego hace clic en la fecha más reciente, verá que la tabla que aparece allí es una página web estática nombrada según el formato de fecha.
Entonces, ahora tenemos un patrón para extraer regularmente la información más reciente de avistamientos de esta base de datos basada en HTML. Todo lo que tiene que hacer es importar la primera tabla, usar la entrada más reciente (la de arriba) para identificar la última actualización, y luego use la fecha de esa publicación para crear el enlace URL donde se encuentra la última tabla de datos HTML existe. Hacer esto simplemente requerirá un par de instancias de la función ImportHTML, y luego algunos usos creativos de las funciones de manipulación de texto. Cuando haya terminado, tendrá una de las mejores hojas de cálculo de informes que se actualizan automáticamente. Empecemos.
Importación de tablas y manipulación de datos
El primer paso, por supuesto, es crear la nueva hoja de cálculo.
Entonces, ¿cómo se importan tablas HTML? Todo lo que necesita es la URL donde se almacena la tabla y el número de la tabla en la página; por lo general, el primero en la lista es 1, el segundo es 2, y así sucesivamente. Como conozco la URL de esa primera tabla que enumera las fechas y los recuentos de avistamientos enumerados, es posible importar escribiendo la siguiente función en la celda A1.
= importhtml (" http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 tiene la función "= hora (ahora ())“, Por lo que la tabla se actualizará cada hora. Esto probablemente sea extremo para los datos que se actualizan con poca frecuencia, por lo que probablemente podría hacerlo todos los días. De todos modos, la función ImportHTML anterior trae la tabla como se muestra a continuación.
Deberá manipular un poco los datos en esta página antes de poder juntar la URL de la segunda tabla con todos los avistamientos de ovnis. Pero siga adelante y cree la segunda hoja en el libro de trabajo.
Antes de intentar construir esa segunda hoja, es hora de extraer la fecha de publicación de esta primera tabla, para construir el enlace a la segunda tabla. El problema es que la fecha se introduce como formato de fecha, no como cadena. Entonces, primero debe usar la función TEXTO para convertir la fecha de publicación del informe en una cadena:
= texto (A2, "mm / dd / aa")
En la siguiente celda a la derecha, debe usar la función DIVIDIR con el delimitador “/” para dividir la fecha en mes, día y año.
= dividir (D2, ”/”)
¡Luciendo bien! Sin embargo, cada número debe tener dos dígitos. Haz esto en las celdas justo debajo de ellas usando el comando TEXTO nuevamente.
= texto (E2, ”00 ″)
Un formato de "00" (esos son ceros) fuerza dos dígitos, o un "0" como marcador de posición.
Ahora está listo para reconstruir la URL completa a la última tabla HTML de nuevos avistamientos. Puede hacer esto usando la función CONCATENAR y juntando todos los bits de información que acaba de extraer de la primera tabla.
= concatenar (" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Ahora, en la nueva hoja que creó arriba (la hoja en blanco), va a hacer una nueva función "importhtml", pero esta vez por primera vez. Parámetro de enlace de URL, por lo que navegará de regreso a la primera hoja de cálculo y hará clic en la celda con el enlace de URL que acaba de crear.
El segundo parámetro es "tabla" y el último es "1" (porque la tabla de avistamientos es la primera y única en la página). Presione enter, y ahora acaba de importar todo el volumen de avistamientos que se publicaron en esa fecha en particular.
Entonces, probablemente estés pensando que este es un buen acto novedoso y todo. Quiero decir, después de todo, lo que has hecho es extraído información existente de una tabla en Internet y la migró a otra tabla, aunque sea privada en sus Google Docs cuenta. Sí, eso es verdad. Sin embargo, ahora que está en su propia cuenta privada de Google Docs, tiene a su alcance las herramientas y funciones para analizar mejor esos datos y comenzar a descubrir conexiones asombrosas.
Uso de informes dinámicos para analizar datos importados
Recientemente, escribí un artículo sobre el uso Informes dinámicos en la hoja de cálculo de Google Conviértase en un analista de datos experto de la noche a la mañana con las herramientas de informes de hojas de cálculo de Google¿Sabía que una de las mejores herramientas de todas para realizar análisis de datos es en realidad la hoja de cálculo de Google? La razón de esto no es solo porque puede hacer casi todo lo que desee ... Lee mas para realizar todo tipo de geniales hazañas de análisis de datos. Bueno, puedes hacer las mismas acrobacias asombrosas de análisis de datos con los datos que has importado de Internet. - dándote la capacidad de descubrir conexiones interesantes que posiblemente nadie más haya descubierto antes usted.
Por ejemplo, de la tabla de avistamientos final, podría decidir usar un informe dinámico para ver el número de diferentes formas únicas reportadas en cada estado, en comparación con el número total de avistamientos en ese particular estado. Finalmente, también filtro cualquier cosa que mencione "extraterrestres" en la sección de comentarios, para eliminar algunas de las entradas más extravagantes.
De hecho, esto revela algunas cosas bastante interesantes desde el principio, como el hecho de que California tiene claramente la mayor número de avistamientos reportados de cualquier otro Estado, junto con la distinción de reportar el mayor número de formas de embarcaciones en el país. También muestra que Massachusetts, Florida e Illinois también son grandes éxitos en el departamento de avistamientos de ovnis (al menos en los datos más recientes).
Otra cosa interesante de la hoja de cálculo de Google es la amplia gama de gráficos disponibles para usted, incluido un mapa geográfico que le permite diseñar "puntos calientes" de datos en un formato gráfico que realmente se destaque y haga que esas conexiones dentro de los datos sean bastante obvio.
Si lo piensas, esto es solo la punta del iceberg. Si ahora puede importar datos de tablas de datos en cualquier página de Internet, piense en las posibilidades. Obtenga las últimas cifras de acciones, o los 10 libros y autores más recientes de la lista de libros más vendidos del New York Times, o los autos más vendidos en el mundo. Existen tablas HTML sobre casi cualquier tema que pueda imaginar y, en muchos casos, esas tablas se actualizan con frecuencia.
ImportHtml le brinda la capacidad de conectar su hoja de cálculo de Google a Internet y alimentarse de los datos que existen. Puede convertirse en su propio centro de información personal que puede utilizar para manipular y dar masajes en un formato con el que realmente pueda trabajar. Es solo una cosa más que me encanta de la hoja de cálculo de Google.
¿Alguna vez ha importado datos a sus hojas de cálculo? ¿Qué tipo de cosas interesantes descubrió en esos datos? ¿Cómo usaste los datos? ¡Comparta sus experiencias e ideas en la sección de comentarios a continuación!
Créditos de imagen: Gráfico de negocio
Ryan tiene una licenciatura en Ingeniería Eléctrica. Ha trabajado 13 años en ingeniería de automatización, 5 años en TI y ahora es ingeniero de aplicaciones. Antiguo editor en jefe de MakeUseOf, ha hablado en conferencias nacionales sobre visualización de datos y ha aparecido en la televisión y la radio nacionales.