Skip to content
Back to formatted view

Raw Message

Message-ID: <CAKXAqm0jozfBSZXuyfX8OpS0tmPW492V4zE8HawreBx6366d6A@mail.gmail.com>
Date: 2016-09-09T07:11:07Z
From: Ruben Tobalina Ramirez
Subject: [R-es]  Borrar carácteres extraños /xax

Buenos días,

estoy realizando análisis de texto con Twitter y tengo un problema con unos
carácteres que no logro quitar. Són cadenas de letras con forma similar a
*xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis.

 Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar
texto, pero no me sirve

# remove rt
x = gsub("rt", "", x)
# remove at
x = gsub("@\\w+", "", x)
# remove punctuation
x = gsub("[[:punct:]]", "", x)
# remove numbers
x = gsub("[[:digit:]]", "", x)
# remove links http
x = gsub("http\\w+", "", x)
# remove tabs
x = gsub("[ |\t]{2,}", "", x)
# remove blank spaces at the beginning
x = gsub("^ ", "", x)
# remove blank spaces at the end
x = gsub(" $", "", x)

¿Alguna forma de eliminarlos?

Muchas gracias!!!

-- 
Rubén.

	[[alternative HTML version deleted]]