Encarnan la profesión de moda, la categoría laboral que, en Estados Unidos, cobra por encima de los 100.000 dólares al año y que escasea tanto en todo el mundo que se ha convertido en el tema estrella en las reuniones de directivos y reclutadores. El científico de datos (traducción literal de data scientist) es una de las profesiones más prometedoras de hoy en día y, en pocos años, se convertirá en pieza clave de cualquier organización. Eso sí, hay que entender el perfil correctamente, y hasta su lenguaje preferido. El de programación, se entiende.
La generación actual vive el síndrome de los datos, todos queremos cuanta más información mejor, por cualquier canal y de forma instantánea. No nos conformamos con esperar para saber, queremos todos los datos YA. Lo curioso es que este gran valor de los datos contrasta con su actual abundancia (se calcula que a diario generamos 2.5 trillones de bytes en todo el planeta). Pero, lo realmente significativo de estos datos no es su descomunal volumen, sino la complejidad de procesarlos.
Hasta hace relativamente poco tiempo resultaba de todo punto imposible y, a finales del siglo pasado, las tecnologías de machine learning (aprendizaje automático) comenzaron a afrontar el dilema. Esto supuso un abaratamiento de este tipo de soluciones y su generalización entre muchas compañías, origen de la inflación que sufre el mercado con respecto a estos profesionales, los encargados de analizar e interpretar grandes bases de datos.
El mercado actual ha generado una enorme demanda para este tipo de profesionales que, en muchos casos, no logra cubrirse con perfiles contrastados. Este nuevo rol no encuentra al inquilino perfecto que, en muchos casos, se está “inventando”, de forma autodidacta, y los lenguajes de programación que dominan son su mejor carta de presentación.
Como resultado, se ha generado en los últimos años una fuerte demanda que no se compadece con el número de científicos de datos disponibles. En muchos casos, se trata de cerrar este gap con formación autodidacta que completa las habilidades básicas de cualquier plan formativo. Por eso, nos encontramos con perfiles muy diversos, entre los primeros profesionales de este ramo, procedentes de las matemáticas y la estadística, la ingeniería informática u otras ingenierías específicas.
Pero, quizás, lo más relevante para un científico de datos sea elegir correctamente el lenguaje de programación en el que especializarse. La mayoría suele optar por SQL (en torno al 68%) y es una elección segura, ya que la mayor parte de los datos que usa un científico de datos profesional procede de internet.
También es muy habitual utilizar R, el lenguaje estadístico por excelencia durante muchos años. Tiene en su contra que su sintaxis es más antigua, compleja y fea que otros lenguajes más modernos que empujan fuerte. En general, se trata del lenguaje de los que se acercan a este nuevo mundo desde un background científico.
Otra alternativa es Python que se distingue de la anterior por contar con una sintaxis eficaz y moderna. Aunque su ecosistema debe desarrollarse todavía mucho, ya está plantando batalla a otros lenguajes más consolidados.
Existen otras muchas alternativas, aunque con menor impacto en el mercado, como son los casos de Scala (17%), Slack (10%), Perl (12%), C# (6%), Mahout (3%), Apache Hadoop (13%) o Java (23%), y otros más específicos (libres o privativos) que se emplean para determinados usos. Por poner algún ejemplo, podríamos hablar de RapidMiner o Weka.
En definitiva, los científicos de datos viven su mejor momento profesional, con un mercado ansioso por contratarlos, múltiples alternativas donde elegir y sueldos en claro ascenso.