Las iniciativas exitosas de Data Science requieren de un proceso bien engrasado, un plan de trabajo que facilite la comunicación entre los diversos actores intervinientes y que garantice el trabajo en equipo de forma eficiente.  

Puntos clave que aporta gestionar un proyecto en base a un proceso: 

  • Ayuda a la comprensión del objetivo: tener una visión compartida es esencial, de forma que se puedan identificar cuanto antes las mejoras prácticas para lograr las metasEl ciclo de vida del proyecto debe de contemplar la posibilidad de mejorar periódicamente la definición del mismo. Cada iteración permite reducir la ambigüedad. 

 

  • Orientación hacia la implementación práctica: tener claro desde el principio cómo se va a usar el producto final es esencial, ya sea un sencillo informe, una integración de datos en una aplicación web, o poner disponible un modelo a través de una API para que sea consumida por un tercero, lo que nos aporta flexibilidad y evita costes de re-implementación. 

 

  • Agilidad y reproducibilidad: desde hace unos años los principios de gestión ágil se están imponiendo en el día a día de muchas empresas, también en los proyectos de Data Science. Lograr ofrecer entregas frecuentes, habitualmente semanales, puede afectar a la reproducibilidad si no se tiene un sistema claro y eficaz de gestión de cambios o versiones. 

Uno de los ejemplos más conocidos de este tipo de proceso es el Team Data Science Process de Microsoft, que se basa en el estándar CRISP-DM, que a pesar de sus más de 20 años, aún sigue vigente como principal sistema para gestionar el ciclo de vida de este tipo de proyectos. 

En Stiga tenemos un proceso que se basa en tres componentes:

1- Definición del ciclo de vida de un proyecto de Data Science: en el que se describen todos los pasos que siguen los proyectos correctos. Este ciclo de vida se ha diseñado para proyectos en los que el resultado final es algún tipo de modelo, sobre todo pensado para los de carácter predictivo. Los proyectos de ciencia de datos exploratorios o proyectos de análisis improvisados también se pueden beneficiar del uso de este proceso, si bien en estos casos, puede que algunos de los pasos descritos no sean necesarios. 

 

 2- Estructura de proyecto estandarizada y plantillas: cuando todos los proyectos comparten una estructura de directorio y usan plantillas para los documentos de proyecto resulta fácil para los miembros del equipo encontrar información y colaborar de forma eficiente. 

 

 3- Gestión de entornos de computación: usamos un gestor de paquetes y un sistema de gestión de entornos de código abierto, multiplataforma​ y de lenguaje agnóstico. Nos permite de forma sencilla crear entornos virtuales en nuestras máquinas donde vamos a instalar todos los paquetes y módulos necesarios para el proyecto. De esta forma podemos garantizar la estabilidad en el código del proyecto, la no interferencia entre proyectos, así como su portabilidad entre distintas máquinas.  

Estructura Ciclo de Vida de Data Science

En la actualidad, son varias las herramientas y análisis avanzados que se utilizan ante necesidades de conocimiento que emergen en las compañías:

Manuel Fernández-Moya

Manuel Fernández-Moya

Director de Data Science

Contacto

Stiga Barcelona

Barcelona

Av. del Carrilet, 243
08907 L’Hospitalet de Llobregat

bcn@stiga.es
+34 933 176 144

Stiga Madrid

Madrid

Londres, 17
28028 Madrid

mad@stiga.es
+34 913 005 119

¿Hablamos?

Stiga Barcelona

Barcelona

Av. del Carrilet, 243
08907 L’Hospitalet de Llobregat

bcn@stiga.es
+34 933 176 144

Stiga Madrid

Madrid

Londres, 17
28028 Madrid

mad@stiga.es
+34 913 005 119

¿Hablamos?

Estate al tanto de las tendencias sobre experiencia de cliente:

Formamos parte de las principales asociaciones de Experiencia de Cliente, Calidad e Investigación de Mercados

STIGA Logo

Estate al tanto de las tendencias sobre experiencia de cliente:

Formamos parte de las principales asociaciones de Experiencia de Cliente, Calidad e Investigación de Mercados

STIGA Logo