Buenas, Tengo un vector de 40 palabras (marca) y necesito saber si en una de las variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 que incluye alguna palabra y 0 que no incluye. ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar? Gracias!
[R-es] Búsqueda de palabras en una variable de R
7 messages · miriam.alzate en unavarra.es, Freddy López, Carlos Ortega +2 more
El mar, 28-11-2017 a las 03:42 +0100, miriam.alzate en unavarra.es escribió:
Tengo un vector de 40 palabras (marca) y necesito saber si en una de las variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 que incluye alguna palabra y 0 que no incluye. ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar?
Lo que describes luce como minerÃa de texto y lo que parece que quieres es una porción de la matriz que llaman Term-Document Matrix. El paquete por excelencia para estos menesteres es tm: https://cran.r-project.org/web/packages/tm/ que tiene su buena viñeta https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf Ojalá sirva. Saludos.
«...homines autem hominum causa esse generatos...» Cicero [[alternative HTML version deleted]]
grep o grepl El mar., 28 nov. 2017 a las 3:42, <miriam.alzate en unavarra.es> escribió:
Buenas, Tengo un vector de 40 palabras (marca) y necesito saber si en una de las variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 que incluye alguna palabra y 0 que no incluye. ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar? Gracias!
_______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Hola,
Si te he entendido bien, este serÃa un ejemplo y una solución:
> > marcas <- c('en', 'lugar')> > mydf <- data.frame(+
x = 1:10,+ y = c('en', 'un', 'lugar', 'de',
'la', 'Mancha', 'de', 'cuyo', 'nombre', 'no'),+ z
= letters[1:10]+ )> > mydf$dum <- ifelse( mydf$y %in% marcas, 1, 0)>
mydf x y z dum
1 1 en a 1
2 2 un b 0
3 3 lugar c 1
4 4 de d 0
5 5 la e 0
6 6 Mancha f 0
7 7 de g 0
8 8 cuyo h 0
9 9 nombre i 0
10 10 no j 0
?Saludos, Carlos Ortega www.qualityexcellence.es ? El 28 de noviembre de 2017, 3:42, <miriam.alzate en unavarra.es> escribió:
Buenas, Tengo un vector de 40 palabras (marca) y necesito saber si en una de las variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 que incluye alguna palabra y 0 que no incluye. ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar? Gracias!
_______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
gregexpr te da la posicion de cada una de ellas Obtener Outlook para Android<https://aka.ms/ghei36>
From: R-help-es <r-help-es-bounces en r-project.org> on behalf of Carlos J. Gil Bellosta <cgb en datanalytics.com>
Sent: Tuesday, November 28, 2017 1:23:49 PM
To: miriam.alzate en unavarra.es
Cc: r-help-es en r-project.org
Subject: Re: [R-es] Búsqueda de palabras en una variable de R
Sent: Tuesday, November 28, 2017 1:23:49 PM
To: miriam.alzate en unavarra.es
Cc: r-help-es en r-project.org
Subject: Re: [R-es] Búsqueda de palabras en una variable de R
grep o grepl El mar., 28 nov. 2017 a las 3:42, <miriam.alzate en unavarra.es> escribió: > Buenas, > > Tengo un vector de 40 palabras (marca) y necesito saber si en una de las > variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si > se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 > que incluye alguna palabra y 0 que no incluye. > > ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar? > > Gracias! > > _______________________________________________ > R-help-es mailing list > R-help-es en r-project.org > https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7Cj.para.fernandez%40hotmail.com%7Cd5eb90d4cc3b4dd8c46408d5365aedcc%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636474686521095545&sdata=SMrovk6NY4VPYkrMck1Rkpdrq9cXDKziX0e5vOY%2Bwak%3D&reserved=0 > [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es en r-project.org https://eur02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7Cj.para.fernandez%40hotmail.com%7Cd5eb90d4cc3b4dd8c46408d5365aedcc%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636474686521095545&sdata=SMrovk6NY4VPYkrMck1Rkpdrq9cXDKziX0e5vOY%2Bwak%3D&reserved=0
Muchas gracias, Estoy intentado ejecutar el paquete y necesito importar el archivo txt, pero necesito importarlo de modo que cada lÃnea sea una observación y no un texto único (tengo unas 63,000 lineas). No encuentro la solución en los enlaces. ¿SabrÃas como hacerlo? Gracias! El Mar, 28 de Noviembre de 2017, 3:50, Freddy Omar López Quintero escribió:
El mar, 28-11-2017 a las 03:42 +0100, miriam.alzate en unavarra.es escribió:
Tengo un vector de 40 palabras (marca) y necesito saber si en una de las variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 que incluye alguna palabra y 0 que no incluye. ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar?
Lo que describes luce como minerÃa de texto y lo que parece que quieres es una porción de la matriz que llaman Term-Document Matrix. El paquete por excelencia para estos menesteres es tm: https://cran.r-project.org/web/packages/tm/ que tiene su buena viñeta https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf Ojalá sirva. Saludos. -- «...homines autem hominum causa esse generatos...» Cicero
readLines() El mié., 29 nov. 2017 5:51, <miriam.alzate en unavarra.es> escribió:
Muchas gracias, Estoy intentado ejecutar el paquete y necesito importar el archivo txt, pero necesito importarlo de modo que cada lÃnea sea una observación y no un texto único (tengo unas 63,000 lineas). No encuentro la solución en los enlaces. ¿SabrÃas como hacerlo? Gracias! El Mar, 28 de Noviembre de 2017, 3:50, Freddy Omar López Quintero escribió:
El mar, 28-11-2017 a las 03:42 +0100, miriam.alzate en unavarra.es escribió:
Tengo un vector de 40 palabras (marca) y necesito saber si en una de las variables del data.frame (datos) se incluye alguna de esas 40 palabras. Si se incluye alguna de ellas, me gustarÃa crear una variable dummy siendo 1 que incluye alguna palabra y 0 que no incluye. ¿Qué paquete me recomendáis? ¿Cuál serÃa el comando a ejecutar?
Lo que describes luce como minerÃa de texto y lo que parece que quieres es una porción de la matriz que llaman Term-Document Matrix. El paquete por excelencia para estos menesteres es tm: https://cran.r-project.org/web/packages/tm/ que tiene su buena viñeta https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf Ojalá sirva. Saludos. -- «...homines autem hominum causa esse generatos...» Cicero
_______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es