Message-ID: <AANLkTikOr96my8HGDMBBpVuG0h1jw8JK6unB6=1oNyO_@mail.gmail.com>
Date: 2011-02-18T01:42:56Z
From: Carlos J. Gil Bellosta
Subject: [R-es] mineo de textos
In-Reply-To: <COL121-W6369DD4FC3B4E3FCC95979ACD50@phx.gbl>
Quizás esto pueda ayudarte:
http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein
Es una implementación en R del algoritmo para calcular la distancia de
Levenshtein (http://es.wikipedia.org/wiki/Distancia_de_Levenshtein).
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El dÃa 17 de febrero de 2011 23:28, Patricio Fuenmayor Viteri
<cpfuenmayor en hotmail.com> escribió:
>
> Saludos con todos.Realmente soy un novato con respecto al mineo de textos, entiendo el concepto, pero no he hecho mucho sobre el tema.Tengo una tarea, que me parece compleja, pero creo que se puede hacer de una manera optima:En resumen lo que tengo que hacer, es asignar un código a unos datos: el problema es que por un lado tengo una columna de nombres, y a estos les debo asignarel código, y por el otro lado tengo 2 columnas, el código y el nombre. Como verán, tengo que hacer un match por nombre, el problema es que los nombres no necesariamente son los mismos, estos contienen abreviaciones, puntuaciones, etc. Al hacer el match, no se me cruza casi nada.Mi pregunta es, cómo hacer algo como lo que hace el help de R, que realiza una búsqueda difusa o una especie de match pero no exacto. Les pongo un ejemplo:
> dat Aautomovilbicicleta montañerapatinetabicicleta de pista
> dat B  codigo Bautomovil  01bicicleta   02avion     03tren      04camion    05
> lo que tengo que hacer es un cruse de todos contra todos y sacar una estadistica de similitud y en base a los valores altos de similitud, asignar el codigo
> dat A  |  dat B | similitud (%)automovil  |  automovil  1automovil  |  bicicleta   0automovil  |  avion     0automovil  |  tren      0bicicleta montañera  | automovil | 0bicicleta montañera  | bicicleta  | 0,85...bicicleta de pista    | bicicleta  | 0,80...etc
> no se cual función me hace esa comparación y me vota un valor de coincidencia.Gracias.Saludos
>
> Â Â Â Â [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>