El Data Scientist está considerado como la profesión más atractiva del siglo XXI y su trabajo consiste en extraer conocimiento a partir de los datos para así poder responder a las preguntas que se formulan.
“Comprender la importancia y dimensión que ha tomado el análisis de grandes volúmenes de datos (Big Data) en las empresas e incluso en la sociedad actual es un primer paso para situarnos en un mundo complejo y apasionante al mismo tiempo”
El trabajo de un Data Scientist
Generamos datos constantemente al navegar, comprar o usar servicios. Su volumen crece sin parar, y las empresas buscan expertos que sepan gestionarlos, analizarlos e interpretarlos para cumplir sus objetivos.
Y por eso, es de vital importancia comprender de qué forma las empresas se van adaptando a este nuevo paradigma y las características de los Data Scientist y actores principales de esta revolución de los datos.
El Data Scientist tiene que comprender el lenguaje R Programming y SQL, que son las dos herramientas más usadas por los expertos en Big Data
Para aprovechar al máximo los datos, es clave trabajar con una metodología clara y estructurada. Esto permite que el profesional siga un proceso ordenado y facilite la continuidad del trabajo en equipo. También es esencial conocer metodologías como Agile, Scrum o Lean Startup para el desarrollo de software, y KDD, SEMMA o CRISP-DM para proyectos con datos.
Almacenamiento y adquisición de datos
Antes del Big Data, es clave entender la evolución del almacenamiento hasta el Business Intelligence. Un Data Scientist debe saber gestionar y explotar datos en bases relacionales.
Para dar el salto al Big Data es necesario conocer las diferentes formas de almacenamiento de fuentes de datos más tradicionales, así como las técnicas para adquisición de nuevas fuentes de datos on-line (APIs, Web…).
Análisis de datos y aprendizaje automático con R y SQL
El Data Scientist tiene que comprender el lenguaje R Programming y SQL, que son las dos herramientas más usadas por los expertos en Big Data, ya que permiten resolver problemas de Análisis de datos a pequeña o mediana escala.
Además, manejar la sintaxis SQL es indispensable para la preparación y análisis básicos de los datos.
También, las librerías R que permiten construir Modelos de Aprendizaje Supervisado y No Supervisado, así como las librerías más actuales para “data wrangling” con R.
Por lo tanto, un Data Scientist tiene que ser capaz de aplicar técnicas de Machine Learning con R, para predecir la nota de un grupo de estudiantes, basándote en sus notas previas, y un set de variables demográficas.
Con R Markdown, un Data Scientist será capaz de generar un informe con los resultados de su análisis, sin salir de tu entorno de programación R Programming. Un informe HTML, PDF, DOCX, … Que podrá compartir, enviar por correo o presentar a sus clientes, managers o colegas, mostrando tus conclusiones en texto, así como los fragmentos de código R y gráficos que quiera mostrar, sin utilizar ninguna herramienta ofimática adicional, sólo programando código R Markdown.

Análisis de datos y aprendizaje automático con Python
El Data Scientist, también le es necesario usar los lenguajes de programación Python, así como algunas de las librerías más relevantes en el análisis de datos para realizar un caso de uso relacionado con el análisis de fuentes de datos abiertos.
Y también, tiene que saber un Data Scientist, a conectarse con Twitter utilizando su API público, para desarrollar un programa que escuche tweets en tiempo real sobre distintas temáticas.
Data Science en escala: Administración de Hadoop
Aunque administrar un clúster Big Data no es tarea del Data Scientist, es útil conocer su entorno, componentes y configuraciones. Debe entender su arquitectura y aprender a gestionar recursos, asignar capacidad y controlar accesos según las necesidades.
Adquisición y almacenamiento Big Data
Uno de los aspectos fundamentales de Big Data, precisamente por lo desmesurado de su tamaño, es el conocimiento de las técnicas de adquisición de datos y almacenamiento de estos en escala, así como saber determinar cuál es el soporte más idóneo para cada tipo de caso de uso.
Las fuentes de datos provenientes de diferentes sistemas de generación de información de tipo automático (tipos logs, sensores…) pueden ser muy variadas e incluso en ocasiones han de ser tratadas rápidamente pues los datos son generados y llegan a la plataforma Big Data a gran velocidad. La herramienta Flume hace que esta ingestión masiva de datos sea sencilla y eficaz.
Por otra parte, hemos de tener en cuenta que estos sistemas Big Data van a convivir con otros sistemas de almacenamiento tradicional en muchas de las compañías existentes y que es muy importante conocer de qué manera se pueden integrar estos dos tipos de estructuras comunicándose unas con otras para obtener el mayor rendimiento de los datos. Con Sqoop pasaremos datos fácilmente desde bases de datos SQL a la plataforma Big Data y viceversa.
En cuanto al tipo de almacenamiento, es obvio que los datos deben ser almacenados, pero diferenciando básicamente las estructuras de almacenamiento Big Data HDFS que sirven como un paso intermedio para el procesamiento de la información, normalmente en procesos batch, frente a los sistemas de almacenamiento de datos finales listos para el consumo por parte del usuario (NoSQL e Indexadores de documentos) y que suelen encontrarse al final de la cadena o pipeline del procesado de datos.
Por eso, un Data Scientist, entre otras cosas, debe ser capaz de llevar datos a tu sistema de almacenamiento Big Data en HDFS y de ahí a tablas en HIVE (herramienta para explotar Big Data con lenguaje SQL).
Comprender la importancia y dimensión que ha tomado el análisis de grandes volúmenes de datos (Big Data) en las empresas e incluso en la sociedad actual es un primer paso para situarnos en un mundo complejo y apasionante al mismo tiempo
Análisis de datos y Machine Learning con Big Data
El reconocimiento de los servicios que forman parte de Hadoop, entender el paradigma básico de programación Map&Reduce y utilizar las herramientas del ecosistema que permitan realizar el tratamiento y análisis de datos abstrayéndonos de la complejidad de la programación, es fundamental en el trabajo para un Data Scientist.
Para consolidar estos conceptos se puede comprobar, mediante un ejemplo práctico en el que se computa el número de contratos realizados por cada Comunidad Autónoma en España, que el resultado obtenido es el mismo independientemente de la herramienta utilizada.
El Data Scientist debe conocer los conceptos básicos de Spark, la principal herramienta de procesamiento Big Data. Esta permite analizar y preparar grandes volúmenes de datos en poco tiempo. También debe saber crear modelos de Machine Learning de forma distribuida. Un ejemplo es predecir notas finales de alumnos según su estilo de vida y calificaciones previas. Para ello, puede usar Spark ML u otras herramientas basadas en Spark o Hadoop, como RSpark o H2O.
Universo Big Data
Un gran caso del Universo Big Data son los Sistemas de Recuperación de la Información, que gracias a la utilización y optimización de los mismos, para grandes volúmenes de datos hizo del buscador de Google, líder indiscutible y que fue el germen para muchas otras aplicaciones Big Data y los Recomendadores que convirtieron a Amazon en un claro caso de éxito de ventas online utilizando la información del historial de ventas e interés de todos sus usuarios.
El auge del Big Data y su rápida evolución han impulsado la aparición de numerosas herramientas, tanto libres como de pago. Estas buscan facilitar el análisis de datos para la toma de decisiones de negocio. Por ello, es clave conocer los principales actores del mercado. Un Data Scientist debe manejar herramientas de Business Intelligence como Qlikview, Data Discovery como Arcadia Data y Machine Learning como RapidMiner.
Otro caso del universo Big Data
Visualizar se puede definir como “el conjunto de tecnologías que transforman datos en información mediante elementos visuales”. El proceso de la visualización de datos parte de información en formato “raw”, para posteriormente estructurarla para convertirla en información. Dicha información, una vez absorbida, comprendida y aplicada, por las personas, puede convertirse en conocimientos o insights.
Este proceso se realiza durante todas las etapas del proceso de generación de conocimiento, ya sea en la fase de data Discovery o en la presentación de resultados a nuestros clientes o a las personas objetivo de nuestro análisis o estudio.
El Data Scientist debe enfocarse en visualizar y presentar datos según el tipo de análisis y audiencia. También debe aplicar estos conocimientos con herramientas comerciales o librerías avanzadas. Un ejemplo es el uso de Tableau o Carto sobre datos públicos para crear aplicaciones intuitivas y eficientes.
Data Scientist está considerado como la profesión más atractiva del siglo XXI
En definitiva, el trabajo de un Data Scientist tiene que contener todas las premisas anteriormente explicadas. Y estas mismas, son las que se estudian en el Máster en Big Data & Business Intelligence certificado por la Universidad Católica de Murcia (UCAM).
¿Qué hay que estudiar para trabajar como experto en Big Data?
La respuesta evidente es el Máster en Big Data & Business Intelligence, porque está realizado e impartido por profesionales expertos del sector. Además, te prepara para trabajar como Data Scientist o Business Analyst, aprovechando toda la potencia de la Inteligencia Artificial.