Tutorial
Modelos de ML en el cuaderno no valen pa' ná.
Si has invertido un valioso tiempo en desarrollar tu modelo de Machine Learning, ¿por qué no lo aprovechas y lo pones a calcular predicciones en una calculadora web?
Si has invertido un valioso tiempo en desarrollar tu modelo de Machine Learning, ¿por qué no lo aprovechas y lo pones a calcular predicciones en una calculadora web?
Dentro ejemplo.
Este ha sido el proyecto que hemos desarrollado durante el curso que he impartido este finde a un par de alumnos.
Aquí las conclusiones con las referencias de código para crear calculadoras web con cualquier tabla de datos.
Ya sabes cómo programar cualquier algoritmo de Machine Learning utilizando la librería de Scikit-Learn, incluso sin mirar en Internet.
Todos siguen los mismos pasos.
Si te dan una tabla de datos, la pregunta más importante es: ¿Qué variable interesa predecir (y)?
El resto quedaría como variables explicativas (X), que utilizarás para predecir la variable de interés.
La variable de interés comúnmente se la denomina objetivo, aunque también se usan los términos label, o target.
En el curso has computado varios modelos de Machine Learning sin mirar las soluciones.
Sabes que lo esencial en esta disciplina es seleccionar modelos que predigan lo mejor posible datos futuros, evitando el sobreajuste (overfitting) con los datos de entrenamiento.
Date la enhorabuena.
Muchas personas acaban un Máster en Data Science (o Inteligencia Artificial) sin siquiera saber programar un modelo de Machine Learning desde un cuaderno en blanco, sin mirar en Internet.
Ahora bien, han sido muchas cosas las que has aprendido en el curso, y es normal que no recuerdes todo como para programarlo sin mirar en Internet.
Pero sabes cómo trabajar el código que tienes en los materiales para adaptarlo a cualquier otro dataset.
Tan solo tendrías que modificar la ruta al fichero de datos, y la variable de objetivo.
Otro aspecto relevante es la calculadora web que has programado.
La gran mayoría de proyectos de Machine Learning se dejan la ecuación matemática en el cuaderno.
No se preocupan de aprovecharla para hacer cálculos de negocio con ellas.
Para ello, hay que exportar el modelo a un fichero y cargarlo en una aplicación.
Vamos, lo que viene a ser poner el modelo en producción.
Sabiendo todo esto, ¿qué deberías hacer ahora?
Seguir practicando aplicando las disciplinas de programación que has aplicado durante el curso.
Búscate un dataset que te interese en Kaggle, y desarrolla otra calculadora web basada en un modelo de Machine Learning.
No tienes más que adaptar los pasos de este proyecto prototipo a tu nuevo dataset.
Dependiendo del nivel que tengas, el dataset que elijas deberá ser más o menos complejo:
- Si eres principiante, elige un dataset simple. Sin muchas variables y con una variable objetivo clara (en Kaggle te la suelen dar en la descripción del dataset).
- Si ya dominas los pasos y te sientes con más confianza, elige un dataset más complejo.
En este último caso, al aplicar los pasos del proyecto prototipo, puede que te encuentres con varios problemas porque los datos no están limpios.
Por ejemplo, muchos valores nulos, o variables difíciles de interpretar para el modelo porque se requiere conocimiento del experto de la industria sobre la que trata el dataset.
Si tienes dudas sobre el dataset que has elegido, o cómo limpiarlo, no dudes en preguntarme a través del canal que tengo en Reddit.
Estaré encantado de ayudarte y respondo a todas las preguntas que me llegan en menos de 24 horas.