Hola,
¿Qué tal?
No sé si ya está resuelto el problema...
Una alternativa puede ser esta.
#-----------------
# Cargar la librerÃa rvest
library(rvest)
# Definir el HTML de ejemplo
x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
Autobahnpolizei)</span></h2>'
# Parsear el HTML
html_content <- read_html(x)
# Extraer solo el nodo de texto dentro de <h2> que no esté en <span>
result <- html_content %>%
+ html_node(xpath = "//h2/text()") %>%
+ html_text(trim = TRUE)
# Mostrar el resultado
print(result)
[1] "Alerta Cobra"
#-----------------
Gracias,
Carlos Ortega
www.qualityexcellence.es
El jue, 10 jul 2025 a las 11:14, Ruben Tobalina Ramirez (<
lagrimaescrita en gmail.com>) escribió:
Buenos dÃas.
Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea
feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me
di cuenta que el texto que está dentro del *span* está siempre dentro de
unos paréntesis Asà que hice un sencillo gsub() borrando todo lo que hay
dentro de los susodichos paréntesis y listo.
A veces es más sencillo de lo que parece. :D
muchas gracias por todo. un saludo
El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (<
javier.ruben.marcuzzi en gmail.com>) escribió:
Estimado Rubén
No importa, el código es algo más largo pero no tanto, serÃa algo como :
Si existe lo siguiente
Borrar esto
So no existe
No borrar nada
Para mi gusto no irÃa por expresiones regulares, por si las dudas en
caso borro de más, hay que saber dominarlas, pero también son una
alternativa.
Aunque si yo quiero, para el webscraping, puedo crear código para
enloquecer a cualquier análisis, por lo cuál, es posible que lo que
analiza tenga algo para ?complicarle la vida?.
Javier Marcuzzi
El 9 jul 2025, a las 6:01?p. m., Ruben Tobalina Ramirez <
lagrimaescrita en gmail.com> escribió:
Buenas noches Javier,
Gracias por la respuesta, yo también lo habÃa pensado. Creo que no me
porque el span dentro del h2 no se repite en todos los casos.
Rubén.
El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi <
javier.ruben.marcuzzi en gmail.com> va escriure:
Buenas tardes Rubén
Lo que usted desea no se puede, pero hay una solución. Primero, si
selecciona el h2 lo que está dentro de esta etiqueta se selecciona.
Segundo, lo que está mal es la selección, sin embargo, puede solucionar
esta buscando y borrando el código <span clas?. , supuestamente este se
podrÃa repetir en todos los datos, por lo cuál el localizarlo y
serÃa una solución.
Por lo cuál al restallado de rvest tendrÃa que procesarlo con otro
en R que limpie el código repetido en todos los registros.
¿Esa solución le es útil?
Javier Marcuzzi
El 9 jul 2025, a las 8:39?a. m., Ruben Tobalina Ramirez <
lagrimaescrita en gmail.com> escribió:
Hola, buenas tardes,
Estoy usando *rvest* para hacer webscraping y me surge una duda con
siguiente codigo:
*x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
Autobahnpolizei)</span>\n</h2>'*
*x %>% read_html() %>% html_nodes(xpath = "//h2")*
Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando
En este ejemplo seria solo *Alerta Cobra. *He probado usando los
tÃpicos operadores como *!* o *:not(span)*, pero no ha resultado
Una orientación de como hacerlo me vendrÃa bien, muchas gracias de
--
Rubén.
[[alternative HTML version deleted]]