Buenas,
Como planteairiais el siguiente problema desde el punto de vista Big DATA.
Imaginad que teneis un sistema que genera un csv cada segundo de 2 megas
aprox. Ese csv tiene que ser preprocesado para sacar las variables
importantes y luego relacionado con la variable respuesta, la cual es
dicotomica (OK,NOK)
Mi idea seria, usar spark para la ingesta de ese archivo, luego
preprocesarlo con H2O conectado con R, y subirlo a una base de datos sql.
Una vez que la base de datos se va llenando, intentar genear algun modelo
usando H2O conectado con R, y con el modelo ya validado, cada nueva
instancia hacerla pasar por ese modelo.
¿Qué os parece la propuesta? ¿Lo hariais de otra manera?
[[alternative HTML version deleted]]