Message-ID: <VI1PR0801MB2096C1E530053DF976607CDBCCD10@VI1PR0801MB2096.eurprd08.prod.outlook.com>
Date: 2017-07-02T08:45:20Z
From: Jesús Para Fernández
Subject: [R-es] Plantear problema desde el punto de vista Big Data
Buenas,
Como planteairiais el siguiente problema desde el punto de vista Big DATA.
Imaginad que teneis un sistema que genera un csv cada segundo de 2 megas aprox. Ese csv tiene que ser preprocesado para sacar las variables importantes y luego relacionado con la variable respuesta, la cual es dicotomica (OK,NOK)
Mi idea seria, usar spark para la ingesta de ese archivo, luego preprocesarlo con H2O conectado con R, y subirlo a una base de datos sql.
Una vez que la base de datos se va llenando, intentar genear algun modelo usando H2O conectado con R, y con el modelo ya validado, cada nueva instancia hacerla pasar por ese modelo.
¿Qué os parece la propuesta? ¿Lo hariais de otra manera?
[[alternative HTML version deleted]]