Skip to content

[R-es] Borrar carácteres extraños /xax

3 messages · Ruben Tobalina Ramirez, Javier Marcuzzi

#
Buenos días,

estoy realizando análisis de texto con Twitter y tengo un problema con unos
carácteres que no logro quitar. Són cadenas de letras con forma similar a
*xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis.

 Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar
texto, pero no me sirve

# remove rt
x = gsub("rt", "", x)
# remove at
x = gsub("@\\w+", "", x)
# remove punctuation
x = gsub("[[:punct:]]", "", x)
# remove numbers
x = gsub("[[:digit:]]", "", x)
# remove links http
x = gsub("http\\w+", "", x)
# remove tabs
x = gsub("[ |\t]{2,}", "", x)
# remove blank spaces at the beginning
x = gsub("^ ", "", x)
# remove blank spaces at the end
x = gsub(" $", "", x)

¿Alguna forma de eliminarlos?

Muchas gracias!!!
3 days later
#
Estimado Rubén Tobalina Ramirez

Puede ser un problema el tener como regla el buscar un parámetro, porque de pronto una palabra contiene justo esa secuencia de letras, por lo cuál yo buscaría las letras en forma que no queden dudas, me tomaría el trabajo de hacer o buscar un diccionario emojis a eliminar o traducir.

De: Ruben Tobalina Ramirez
#
Buenos dias,

Muchas gracias Rubén, tocayo.

Ya me temía que la solución fuera esa. Estube mirando por los foros y vi
que todas las soluciones eran crear un diccionario de palabras que se
identificaran con los códigos de los emoji. Lo más fácil será crear un
archivo con los códigos y borrarlos con removeWords del paquete tm.

Un saludo!

El 12 de septiembre de 2016, 22:37, <javier.ruben.marcuzzi en gmail.com>
escribió: