An embedded and charset-unspecified text was scrubbed... Name: no disponible URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20110217/26d1ef54/attachment.pl>
[R-es] mineo de textos
5 messages · Patricio Fuenmayor Viteri, Carlos J. Gil Bellosta, Carlos Ortega +1 more
Quizás esto pueda ayudarte: http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein Es una implementación en R del algoritmo para calcular la distancia de Levenshtein (http://es.wikipedia.org/wiki/Distancia_de_Levenshtein). Un saludo, Carlos J. Gil Bellosta http://www.datanalytics.com El dÃa 17 de febrero de 2011 23:28, Patricio Fuenmayor Viteri <cpfuenmayor en hotmail.com> escribió:
Saludos con todos.Realmente soy un novato con respecto al mineo de textos, entiendo el concepto, pero no he hecho mucho sobre el tema.Tengo una tarea, que me parece compleja, pero creo que se puede hacer de una manera optima:En resumen lo que tengo que hacer, es asignar un código a unos datos: el problema es que por un lado tengo una columna de nombres, y a estos les debo asignarel código, y por el otro lado tengo 2 columnas, el código y el nombre. Como verán, tengo que hacer un match por nombre, el problema es que los nombres no necesariamente son los mismos, estos contienen abreviaciones, puntuaciones, etc. Al hacer el match, no se me cruza casi nada.Mi pregunta es, cómo hacer algo como lo que hace el help de R, que realiza una búsqueda difusa o una especie de match pero no exacto. Les pongo un ejemplo: dat Aautomovilbicicleta montañerapatinetabicicleta de pista dat B  codigo Bautomovil  01bicicleta   02avion     03tren      04camion    05 lo que tengo que hacer es un cruse de todos contra todos y sacar una estadistica de similitud y en base a los valores altos de similitud, asignar el codigo dat A  |  dat B | similitud (%)automovil  |  automovil  1automovil  |  bicicleta   0automovil  |  avion     0automovil  |  tren      0bicicleta montañera  | automovil | 0bicicleta montañera  | bicicleta  | 0,85...bicicleta de pista    | bicicleta  | 0,80...etc no se cual función me hace esa comparación y me vota un valor de coincidencia.Gracias.Saludos     [[alternative HTML version deleted]]
_______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
An embedded and charset-unspecified text was scrubbed... Name: no disponible URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20110218/046dba44/attachment.pl>
An embedded and charset-unspecified text was scrubbed... Name: no disponible URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20110218/7a8ea914/attachment.pl>
2 days later
An embedded and charset-unspecified text was scrubbed... Name: no disponible URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20110221/62048053/attachment.pl>