Aplicando técnicas de procesamiento de datos

Por Elio Espinoza.

(8 min)

Continuamos con la fase de «Conocer los datos», la cual puede implicar el 80% del tiempo de la analítica avanzada, ya que es aquí donde se revisa a profundidad los datos con los que se cuenta y es importante entender cuál es el comportamiento que tienen cada uno de ellos, sus relaciones, la calidad y qué otros datos es necesario crear u obtener a partir de los existentes para poder desarrollar los modelos más adecuados para análisis.

Para esto consideraremos las siguientes recomendaciones:

  1. Datos de muestra
  2. Ingeniería de datos
  3. Adquisición y mezcla de datos

Datos de muestra

El objetivo es tener una muestra representativa de datos de una población mayor. Lo importante es que los datos de esta muestra tengan una representación que muestre las características de la población actual, para lo cual es necesario tener en cuenta:

  1. Tamaño de la muestra: Para poder determinar el tamaño apropiado es necesario examinar la cantidad de datos que se tienen y de dónde se los obtendría. Por ejemplo, las órdenes de compra podrían ser obtenidas fácilmente de un ERP o sistema contable. A esto habría que añadir el margen de error esperado (MoE, Margin of Error), lo cual típicamente está en el orden del 5%; así como también el nivel de confianza (CL, Confidence Level) que representa el nivel de precisión que debería tener el MoE y que generalmente debería estar en el 95%. Con esta información y una calculadora que permita hacer el cálculo de la estimación de la muestra (se pueden encontrar muchas calculadoras en internet, como Sample Size Calculator by Raosoft, Inc.) y con eso poder establecer la cantidad de datos mínimos que se requieren.
  2. Uno de los errores de muestreo en los que se puede incurrir es que la muestra no tenga una buena representatividad de los datos, lo cual afectaría al desarrollo del modelo.
  3. Por lo que, para reducir esta posibilidad de error, se acostumbra que al momento de seleccionar los datos de la muestra se lo haga con un mecanismo aleatorio y asegure tener una muestra más representativa.

Entonces, resumiendo, los datos de muestra deberían ser en una cantidad suficientemente buena, seleccionada de manera aleatoria y que represente bien las características de la población.

Para verificar si los datos son los adecuados, se debe realizar una prueba de Hipótesis nula (considerando por ejemplo que la media de ventas de la muestra y los datos de la población son diferentes), utilizando por ejemplo una prueba t-test; y si el resultado del valor de p <0.5, concluiríamos que la hipótesis nula es fallida y los datos son adecuados. [/av_textblock] [av_heading heading='Ingeniería de datos‘ tag=’h3′ link=» link_target=» style=’blockquote modern-quote’ size=» subheading_active=» subheading_size=» margin=» padding=’10’ icon_padding=’10’ color=» custom_font=» icon_color=» show_icon=» icon=’ue800′ font=» icon_size=» custom_class=» id=» admin_preview_bg=» av-desktop-hide=» av-medium-hide=» av-small-hide=» av-mini-hide=» av-medium-font-size-title=» av-small-font-size-title=» av-mini-font-size-title=» av-medium-font-size=» av-small-font-size=» av-mini-font-size=» av-medium-font-size-1=» av-small-font-size-1=» av-mini-font-size-1=» av_uid=’av-1kj35my’][/av_heading]


Una vez obtenido ya los datos de muestra, se realiza la ingeniería de datos, que consiste en una serie de actividades que permitirán preparar los datos para el modelaje:

Algunas de estas actividades se explican por sí solas. Para el caso particular de Transformar Valores, se requiere utilizar algunas técnicas dependiendo de los tipos de datos. Por ejemplo, si estos son categóricos, como puede ser H para Hombre y M para Mujeres, se deberá codificarlos transformándolos en numéricos (0 para hombres y 1 para mujeres).

Parte del proceso implica validar que campos tienen correlación con los datos que se quieren proyectar. Por ejemplo, si objetivo del análisis es predecir en una población las personas que podrían tener diabetes en el futuro, se verificará los datos (edad, profesión, nivel de escolaridad, nivel de ingreso, antecedentes familiares, etc.) que se tengan de aquellas personas que ya no padecen.

El análisis de correlación permitirá entender si alguno de estos factores podría haber influido o si son comunes en aquellas personas que padecen la enfermedad. Los otros se descartan.

Finalmente, puede que sea necesario crear nuevos datos a partir de los existentes. Por ejemplo, para hacer un modelo de predicción de fallo de una maquinaria, podríamos tener las horas de operación (fecha, hora) del equipo y, adicionalmente, tengamos que agregar a esto un campo para identificar en qué horario se lo hizo (mañana o tarde). Entonces se crearía un campo que comprenda fecha + hora + horario.

Adquisición y mezcla de datos

Para enriquecer aún más el modelo a desarrollar, otra sugerencia es la de adquisición y mezcla de nuevas fuentes, las cuales pueden trabajarse considerando lo siguiente:

  1. Adquisición de datos: A través de nuevas fuentes o encuestas que permitan tener nuevos datos, aplicando luego a estos pruebas de concepto que permitan hacer un ejercicio rápido y validar el aporte que podría tener al modelo.
  2. Combinación de datos: Una vez adquiridos los nuevos datos, se tendrá que integrarlos a los actuales, considerando algunos aspectos como los elementos de unión que existan para integrarlos, es decir, la clave con la cual se integrará a los datos actuales.
  3. Limpieza de datos: Ya con los datos combinados se tendrá que hacer un proceso de limpieza en donde se ejecuten actividades como poblar valores perdidos, estandarizar y enriquecer la integración, remover datos duplicados y, por último, validar y verificar si estos datos cumplen con los objetivos de negocios establecidos.

A continuación, nuestro mapa mental resumiendo este nuevo TIP sobre técnicas para procesar datos:

Le podría interesar

Equipo de Alto Desempeño Analítica_blog

Acerca de Grupo Novatech

Desde 1995, hemos realizado con éxito +1.000 proyectos de distinta índole a más de 600 empresas en Latinoamérica, ayudándolas a ser más eficientes y competitivas, aprovechando las posibilidades que ofrecen los avances tecnológicos. Conozca cómo le podemos ayudar.