fbpx

Procesos de Análisis de Datos

Procesos de Análisis de Datos
02 Ago

Procesos de Análisis de Datos

El proceso de Análisis de Datos conlleva la recolección, transformación, limpieza y modelado de datos para descubrir la información útil y de interés para una organización. Todos los datos obtenidos se transforman en conclusiones y se usan para la toma de decisiones. Para llevar a cabo un proyecto de Análisis de Datos existen varias metodologías a seguir. Aunque KDDSEMMA y CRISP-DM son las tres más utilizadas ¡Conócelas!

Conociendo los Procesos de Análisis de Datos

KDD, SEMMA y CRISP-DM son metodologías populares utilizadas en el campo del análisis de datos y la minería de datos. Estas metodologías proporcionan un marco estructurado para el análisis de datos y la minería de datos, lo que ayuda a garantizar que los procesos sean sistemáticos, repetibles y conduzcan a resultados útiles y confiables.

KDD o Knowledge Discover Database

Es un proceso centrado en la extracción de conocimiento de un repositorio, enfatizando las aplicaciones de alto nivel de ciertos métodos de Minería de Datos.

Banner Máster Cloud Big Data Science

Es interactivo e iterativo y consta de 5 etapas:

  • Selección: A través de esta fase se seleccionan las variables, o si se va a trabajar con muestras, los datos que deben ir a las mismas, su distribución, etc.
  • Preprocesamiento:En esta etapa los datos se limpian y se adecúan para poder ser consumidos por la herramienta de Análisis de datos.
  • Transformación: Aquí se utilizan métodos de reducción de la dimensión u otros métodos de transformación, para poder aplicar las técnicas de Data Mining que son elegidas.
  • Minería de datos:Aquí se intenta resolver las preguntas planteadas con las técnicas de Minería de datos escogidas, o se emprende la búsqueda de nuevos hallazgos, se intenta detectar patrones en los datos.
  • Interpretación / Evaluación:A través de esta última etapa se extraen las conclusiones del estudio, y se evalúan los modelos de Minería de datos utilizados.

SEMMA o Sample, Explore, Modify, Model and Assess

Como metodología se puede aplicar a cualquier proceso de Minería de Datos, está ligado al Software de SAS para Minería de Datos.

Consta de 5 etapas:

  • Muestrear: En esta etapa se obtienen muestras de los datos que sean representativas para el análisis, pero de tamaño adecuado para poder manipularlas en un tiempo y con unos recursos razonables.
  • Explorar:Análisis preliminar de los datos, obteniendo unas primeras conclusiones sobre su morfología, tendencias, etc., para ayudarnos a decidir qué camino seguir.
  • Modificar: En esta fase se modifican los datos, se aplican transformaciones y realizan selecciones para crear las variables ya orientadas al proceso de selección del modelo. 
  • Modelar: Aplicando Modelos de Minería de Datos, se obtienen funciones o combinaciones de las variables de elegidas como predictoras, que nos ayudan a predecir la variable objetivo.
  • Evaluar: En esta última fase se evalúa la utilidad y fiabilidad de los insights obtenidos con el Modelo, y se estima su rendimiento.

Procesos de Análisis de Datos

CRISP-DM o Cross Industry Standard Process for Data Mining

Es un proceso iterativo y centrado en el negocio. Es independiente de la herramienta de Minería de datos que se utilice y está muy ligado a SPSS Clementine.  

Es cíclico y consta de seis etapas flexibles:

  • Entendimiento del Negocio:Entender los objetivos y requisitos desde un punto de vista de Negocio, como paso previo a la definición del problema de Minería de Datos.
  • Entendimiento de los datos:Se recolectan los datos, se exploran, se detectan problemas con la calidad de los mismos, y se obtienen los primeros insights, subconjuntos de datos, primeras hipótesis.
  • Preparación de los datos: Se construye un dataset a partir de los datos en crudo.
  • Modelado: Se seleccionan y aplican técnicas de Modelado, y se calibran sus parámetros en búsqueda de los mejores resultados.
  • Evaluación: Se evalúan los modelos y se revisan los pasos seguidos para la construcción de los Modelos, en relación a los objetivos de Negocio.
  • Despliegue: El/los modelo/s se “industrializa/n”. Se puede llegar a desplegar en un sistema o entorno de producción, o al menos se genera un entregable que el cliente pueda usar

KDD, SEMMA y CRISP-DM y la Computación en la nube

Si bien KDD, SEMMA y CRISP-DM son metodologías utilizadas en el análisis de datos y la minería de datos, no están directamente relacionadas con la computación en la nube. La computación en la nube puede ser un entorno en el que se lleven a cabo los procesos de análisis de datos utilizando estas metodologías ¿Cómo?

KDD y la computación en la nube: La computación en la nube proporciona recursos de almacenamiento y procesamiento escalables y flexibles. Esto es beneficioso para el proceso de KDD, ya que el almacenamiento en la nube permite almacenar grandes volúmenes de datos de manera rentable y accesible. Además, la capacidad de procesamiento en la nube permite realizar análisis intensivos en datos utilizando técnicas de KDD, como minería de datos y aprendizaje automático, de manera eficiente y rápida.

SEMMA y la computación en la nube: La computación en la nube también se puede utilizar en el proceso SEMMA. Almacenar y procesar datos en la nube puede facilitar el muestreo, la exploración, la transformación y el modelado de datos, ya que la infraestructura en la nube puede escalar según las necesidades. La flexibilidad de la computación en la nube permite implementar y ajustar fácilmente los pasos de SEMMA según sea necesario, sin preocuparse por la infraestructura subyacente.

CRISP-DM y la computación en la nube: Al igual que con KDD y SEMMA, la computación en la nube puede ser un entorno adecuado para llevar a cabo los pasos de CRISP-DM. La capacidad de almacenamiento en la nube permite gestionar grandes conjuntos de datos, mientras que la capacidad de procesamiento escalable puede acelerar el análisis y el modelado de datos. Además, la colaboración y el intercambio de datos entre los diferentes equipos de trabajo involucrados en el proceso CRISP-DM pueden ser facilitados por la computación en la nube a través de servicios y herramientas de colaboración en línea.

En resumen, la computación en la nube puede ser un entorno beneficioso para realizar el análisis de datos y la minería de datos utilizando estas metodologías (KDD, SEMMA y CRISP-DM), debido a su escalabilidad, flexibilidad y capacidad de procesamiento.

¿Quieres saber más sobre los Procesos de Análisis de Datos?

   
Visto 63299 veces Modificado por última vez en %PM, %12 %472 %2023 %12:%Jun
Inicia sesión para enviar comentarios

Suscríbete a nuestra Newsletter:

Introduce tu e-mail y pulsa Enter para suscribirte

  • Dirección: C\ Campo de Gomara , 4,
    47008. Valladolid
    España
  • Tel.: +34 983 390 716
  • E-mail: info@campusbigdata.com

 

Big Data Internacional Campus pertenece a ENIIT Innova Business School  Eniit