Hola Javier,
Si ya has conseguido importar todos los correos a tu máquina unas
formas de seguir avanzando:
* Puedes búsquedas directamente sobre los correos con comandos
de la shell y asà ver cuánto, cuándo y por quién se repite
cierto término. Con estos comandos (grep, find, etc) puedes
encontrar todas es información, sin pasar por R. Bueno,
también los puedes invocar desde "R" con "system()" y
manipular los resultados desde R.
* Otra alternativa es procesar los correos desde R con el
paquete "tm". Si el plugin "tm.plugn.mail" te exige convertir
tus correos a eml, no lo hagas. Puedes procesar previamente
los correos para quitarle cabeceras y firmas (esto lo puedes
hacer igualmente en R con funciones de expresiones regulares o
con el paquete "stringr" y el procesar el cuerpo del mensaje
con "tm" directamente.
* El paquete "tm" permite especificar el idioma e
indicar igualmente que para los resultados y
estadÃsticas te elimine palabras comunes o incluso
palabras prohibidas que tú indiques. El resultado de
"tm" es un data.frame con palabras y su frecuencia de
aparición en cada correo (si es que quieres procesar
cada correo).
Un ejemplo sencillo de uso de "tm" y de una representación muy común
que son las "nubes de palabras" lo puedes encontrar aquÃ:
http://wiekvoet.blogspot.com.es/2012/12/the-eye-of-world-as-word-cloud.html
Saludos,
Carlos Ortega
www.qualityexcellence.es
El 16 de enero de 2013 04:16, Marcuzzi, Javier
<javier.ruben.marcuzzi en gmail.com> escribió:
Estimados
Mirando un poco sus comentarios, el siguiente paquete
?tm.plugin.mail?
puede ser útil para procesar los correos de R, realizar un
text -
mining, y conocer algunas cosas que pueden ser buenas para
nosotros.
Pero antes de intentar algo sin saber, y pensar que porque se
abre un
archivo se soluciona el problema, les consulto respecto al
formato de
correos y codificación de texto. Siguiendo la sugerencia de
Carlos J.
Gil Bellosta descargue todos los correos de esa lista de
distribución,
gedit en linux suse no alcanza para leer todos los correos (si
nano
desde la terminal), pero gedit informa que en un sector hay
codificación
que no es UTF-8 (creo). Es probable que en esta lista de
correos por ser
en español, aparezcan distintas codificaciónes.
No lo realice aún, pero intentare descargar todos los correos
de esta
lista y pasarlos a un solo archivo txt (imitando a Carlos J.
Gil
Bellosta), luego abrilo con R y como son correos utilizar el
paquete que
nombre al inicio (tm.plugin.mail)según la idea de (Carlos
Ortega).
Ustedes que tienen mucha mas experiencia y conocimientos,
¿tomarÃan
algún recaudo antes de importar o procesar incorrectamente un
montón de
palabras?
Me pareció interesante la herramienta en R, su manual son solo
6
páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento
según mi
intuición o hay algún cuidado especial para no procesar
palabras
inútiles (aparte de la lista necesaria)?
Javier Marcuzzi
Javier Marcuzzi
El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió:
> Hola Javier,
>
>
>
>
> Para buscar temas especÃficos sobre los correos del
> * Está el propio Google que filtrando por las palabras
> buscando sobre un site concreto (de los varios donde
> alojados los correos) puedes centrar mucho las
> encontrar lo que buscas de un temas especÃfico, algo
> * "r-help-es lme4 2012" (para buscar correos
> r-help-es del 2012 asociados a lme4
> * En vez de ir directamente Google, buscar a través
> buscadores especÃficos que atacan las listas de
> Dentro de la sección "Search" de www.r-project.org
> esos sitios y ahà repetirÃas esa misma búsqueda
> * Y hay una tercera mucho más elaborada que es
> bajarte de la red todos los correos del R-Help-es y
> atacar con "R" haciendo algo de "text mining", en
> búsqueda sin duda será más precisa y a la medida.
> Saludos,
>
> Carlos Ortega
> www.qualityexcellence.es
>
>
> El 11 de enero de 2013 16:33, Marcuzzi, Javier
> <javier.ruben.marcuzzi en gmail.com> escribió:
> Hola a todos.
>
> Creo que la idea de redactar algo de R por nosotros
> nueva,
> pero ¿como se puede hacer para extraer de nuestra
> problemas
> que aparecieron y necesitaron la colaboración de
> ¿como encontrar las preguntas por ejemplo de lme4
> a xx?
> ¿se puede hacer algo medio automatizado de acuerdo a
> cantidad de
> palabras que se repiten o sus relaciones en esta
>
> Se podrá documentar nuestras dudas y errores para
> compartir
> soluciones.
>
> Javier Marcuzzi
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
--
Saludos,
Carlos Ortega
www.qualityexcellence.es