Use Excel como una herramienta para copiar datos de la Web

El raspado web(Web scraping) es el acto de extraer datos, información o imágenes de un sitio web utilizando un método automatizado. Piense(Think) en ello como copiar y pegar(copy and paste) en automático completo.

Escribimos o usamos una aplicación para ir a los sitios web que queremos y hacer una copia de las cosas específicas que queremos de esos sitios web. Es mucho más preciso que descargar un sitio web completo.

Como cualquier herramienta, el web scraping puede usarse para bien o para mal. Algunas de las mejores razones para rastrear sitios web serían clasificarlos en un motor de búsqueda en(search engine) función de su contenido, comparar precios(price comparison shopping) o monitorear la información del mercado de valores(stock market information) . Incluso podría usarlo como una especie de herramienta de investigación .(research tool)

¿Cómo puedo raspar sitios web con Excel ?

Lo crea o no, Excel ha tenido la capacidad de extraer datos de sitios web durante mucho tiempo, al menos desde Excel 2003 . Es solo que el raspado web es algo en lo que la mayoría de la gente no piensa(t think) , y mucho menos piensa en usar un programa de hoja de cálculo(spreadsheet program) para hacer el trabajo. Pero es sorprendentemente fácil y poderoso. Aprendamos cómo se hace haciendo una colección de métodos abreviados de teclado de Microsoft Office(Microsoft Office keyboard) .

Encuentre los sitios que desea raspar

Lo primero que vamos a hacer es buscar las páginas web concretas de las que queremos obtener información. Vayamos a la fuente y busquemos(source and search) en https://support.office.com/ . Vamos a utilizar el término de búsqueda(search term) "accesos directos de uso frecuente". Podemos hacerlo más específico usando el nombre de la aplicación específica, como Outlook , Excel , Word , etc. Puede ser una buena idea marcar la página de resultados para que podamos volver allí fácilmente.

Haga clic(Click) en el resultado de la búsqueda(search result) , "Métodos abreviados de teclado en Excel para Windows". Una vez en esa página, busque la lista de versiones de Excel y haga clic en (Excel)Versiones más recientes(Newer Versions) . Ahora estamos trabajando con lo último y lo mejor.

Podríamos volver a nuestra página de resultados de búsqueda y abrir los resultados de todas las demás aplicaciones de Office(Office apps) en sus propias pestañas y marcarlas. Es una buena idea, incluso para este ejercicio. Aquí es donde la mayoría de la gente se detendría en la recopilación de accesos directos de Office , pero no nosotros. Los vamos a poner en Excel para que podamos hacer lo que queramos con ellos, cuando queramos.

Abrir Excel y raspar

Abra Excel y comience un nuevo libro de trabajo. Guarde el libro de trabajo como accesos directos de Office(Office Shortcuts) . Si tiene OneDrive, guárdelo allí para que funcione la función de guardado automático(AutoSave ) .

Una vez guardado el libro de trabajo, haga clic en la pestaña Datos .(Data)

En la cinta de opciones de la pestaña Datos(Data tab) , haga clic en Desde la web(From Web) .

Se abrirá la ventana del asistente Desde Web . (From Web )Aquí es donde ponemos la dirección web o la URL(web address or URL) del sitio web del que queremos extraer datos. Cambie a su navegador web y copie(copy) la URL.

Pegue la URL en el campo URL del (URL)asistente Desde Web(From Web wizard) . Podríamos elegir usar esto en modo Básico(Basic) o Avanzado(Advanced) . El modo Avanzado(Advanced mode) nos brinda muchas más opciones sobre cómo acceder a los datos del sitio web. Para este ejercicio, solo necesitamos el modo Básico. Haga clic en (Click) Aceptar(OK) .

Excel ahora intentará conectarse al sitio web. Esto puede tardar unos pocos segundos. Veremos una ventana de progreso(progress window) , si es así.

Se abrirá la ventana Navegador(Navigator) y veremos una lista de tablas del sitio web a la izquierda. Cuando seleccionemos uno, veremos una vista previa de la tabla a la derecha. Seleccionemos la tabla de accesos directos de uso frecuente .(Frequently used shortcuts )

Podemos hacer clic en la pestaña Vista web(Web View) para ver el sitio web real, si necesitamos buscar la tabla que queremos. Cuando lo encontremos, podemos hacer clic en él y será seleccionado para importar.

Ahora, hacemos clic en el botón Cargar(Load) en la parte inferior de esta ventana. Hay otras opciones que podríamos elegir, que son más complejas y están más allá del alcance de hacer nuestro primer raspado. Sólo tenga en cuenta que están allí. Las capacidades de web scraping de Excel son muy poderosas.

La tabla web(web table) se cargará en Excel después de unos segundos. Veremos los datos a la izquierda, donde está el número 1 en la imagen de abajo. El número 2 resalta la consulta(Query) utilizada para obtener los datos del sitio web. Cuando tenemos varias consultas en un libro de trabajo, aquí es donde seleccionamos la que necesitamos usar.

Observe(Notice) que los datos entran en la hoja de cálculo como una tabla de Excel. Ya está configurado para que podamos filtrar u ordenar los datos.

Podemos repetir este proceso para todas las demás páginas web que tengan los accesos directos de Office(Office) que queramos para Outlook , Word , Access , PowerPoint y cualquier otra aplicación de Office(Office app) .

Mantener actualizados los datos raspados(Scraped Data Current) en Excel

Como beneficio adicional para usted, vamos a aprender cómo mantener actualizados nuestros datos raspados en Excel . Esta es una excelente manera de ilustrar cuán poderoso es Excel para el raspado de datos. Incluso con esto, solo estamos haciendo el raspado más básico que puede hacer Excel .

Para este ejemplo, usemos una página web de información bursátil como (stock information)https://www.cnbc.com/stocks/ .

Siga lo que hicimos antes y copie y pegue(copy and paste) la nueva URL de la barra de direcciones(address bar) .

Accederá a la ventana Navegador(Navigator window) y verá las tablas disponibles. Seleccionemos los principales índices bursátiles de EE(Major U.S. Stock Indices) . UU .

Una vez que se raspan los datos, veremos la siguiente hoja de cálculo.

A la derecha, vemos la consulta de los principales índices bursátiles de EE(Major U.S. Stock Indexes) . UU . Seleccione(Select) eso para que quede resaltado. Asegúrese(Make) de que estamos en la pestaña Herramientas de tabla y en el área de (Table Tools)Diseño(Design) . Luego haga clic en la flecha hacia abajo debajo de Actualizar(Refresh) . Luego haga clic en Propiedades de conexión(Connection Properties) .

En la ventana Propiedades de consulta , en la pestaña (Query Properties )Uso(Usage) , podemos controlar cómo se actualiza esta información. Podemos establecer un período de tiempo específico para actualizar, o para actualizar cuando abramos el libro de trabajo la próxima vez, o para actualizar en segundo plano, o cualquier combinación de estos. Una vez que elijamos lo que necesitamos, pulsamos en Aceptar(OK) para cerrar la ventana y continuar.

¡Eso es todo! Ahora puede realizar un seguimiento de los precios de las acciones, los resultados deportivos o cualquier otro dato que cambie con frecuencia desde una hoja de cálculo de Excel(Excel spreadsheet) . Si eres bueno con las ecuaciones y funciones de Excel , puedes hacer casi cualquier cosa que quieras con los datos.

Tal vez intente identificar las tendencias de las acciones, administre un grupo de deportes de fantasía en el trabajo o tal vez simplemente realice un seguimiento del clima. ¿Quién sabe? Tu imaginación y los datos disponibles en Internet , son los únicos límites.



About the author

Soy técnico de Windows 10 y he estado ayudando a personas y empresas a aprovechar el nuevo sistema operativo durante muchos años. Tengo un gran conocimiento sobre Microsoft Office, incluido cómo personalizar la apariencia y las aplicaciones para diferentes usuarios. Además, sé cómo usar la aplicación Explorer para explorar y encontrar archivos y carpetas en mi computadora.



Related posts