Skip to content

[R-es] (sin asunto)

3 messages · Javi Lopez, Carlos J. Gil Bellosta, Javier Marcuzzi

#
Hola. Acabo de suscribirme a la lista y espero poder colaborar aunque soy
nuevo en R y estoy aprendiendo.

Estoy intentando hacer un raspado de páginas web (web scraping),pero con mi
código solo consigo que me devuelva la primera tabla, y necesitaría al
menos una decena.

url <- http://www.infocif.es/ranking/ventas-empresas/espana
pagina <- read_html(url, as.data.frame=T, stringsAsFactors = TRUE)
pagina %>%
html_nodes("table") %>%
.[[1]] %>%
html_table(fill=T) -> x

Así, como digo, consigo los datos de la primera tabla, pero no de las
siguientes.

Gracias por cualquier ayuda y por aceptarme en esta comunidad. Saludos

Javier
#
Hola, ¿qué tal?

Tienes que bajar la tabla de

http://www.infocif.es/ranking/ventas-empresas/espana?pagina=1,
http://www.infocif.es/ranking/ventas-empresas/espana?pagina=
<http://www.infocif.es/ranking/ventas-empresas/espana?pagina=1>2,
etc.

Lo puedes hacer en un bucle.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El lun, 10 may 2021 a las 10:42, Javi Lopez (<bierzomapas en gmail.com>)
escribió:

  
  
#
Estimado López

Es que debe hacer click en 1, en 2, en 3, de esta forma recorre todos los
datos. Para hacer click debe analizar el código html, y luego en R crear un
código para que lo automatice. Casi todas las variantes tienen como ejemplo
buscar una palabra en el buscador, bueno, es click en el botón y en
parámetro en lugar de la palabra va el índice de tabla. Pero, hay que
hacerlo, web scraping tiene sus cosas, yo lo supe realizar con R, ahora uso
c#, pero solo por la asistencia del editor para escribir el código y el
mezclar lenguajes, pero, si son pocos datos lo realizo a mano,
automatizarlo es mucho trabajo y esto lleva tiempo.

Javier Rubén Marcuzzi

El lun, 10 may 2021 a las 5:42, Javi Lopez (<bierzomapas en gmail.com>)
escribió: