Aplicando técnicas de procesamiento de datos
Por Elio Espinoza.
(8 min)
Por Elio Espinoza.
(8 min)
Continuamos con la fase de «Conocer los datos», la cual puede implicar el 80% del tiempo de la analítica avanzada, ya que es aquí donde se revisa a profundidad los datos con los que se cuenta y es importante entender cuál es el comportamiento que tienen cada uno de ellos, sus relaciones, la calidad y qué otros datos es necesario crear u obtener a partir de los existentes para poder desarrollar los modelos más adecuados para análisis.
Para esto consideraremos las siguientes recomendaciones:
El objetivo es tener una muestra representativa de datos de una población mayor. Lo importante es que los datos de esta muestra tengan una representación que muestre las características de la población actual, para lo cual es necesario tener en cuenta:
Entonces, resumiendo, los datos de muestra deberían ser en una cantidad suficientemente buena, seleccionada de manera aleatoria y que represente bien las características de la población.
Para verificar si los datos son los adecuados, se debe realizar una prueba de Hipótesis nula (considerando por ejemplo que la media de ventas de la muestra y los datos de la población son diferentes), utilizando por ejemplo una prueba t-test; y si el resultado del valor de p <0.5, concluiríamos que la hipótesis nula es fallida y los datos son adecuados.
[/av_textblock]
[av_heading heading='Ingeniería de datos‘ tag=’h3′ link=» link_target=» style=’blockquote modern-quote’ size=» subheading_active=» subheading_size=» margin=» padding=’10’ icon_padding=’10’ color=» custom_font=» icon_color=» show_icon=» icon=’ue800′ font=» icon_size=» custom_class=» id=» admin_preview_bg=» av-desktop-hide=» av-medium-hide=» av-small-hide=» av-mini-hide=» av-medium-font-size-title=» av-small-font-size-title=» av-mini-font-size-title=» av-medium-font-size=» av-small-font-size=» av-mini-font-size=» av-medium-font-size-1=» av-small-font-size-1=» av-mini-font-size-1=» av_uid=’av-1kj35my’][/av_heading]
Una vez obtenido ya los datos de muestra, se realiza la ingeniería de datos, que consiste en una serie de actividades que permitirán preparar los datos para el modelaje:
Algunas de estas actividades se explican por sí solas. Para el caso particular de Transformar Valores, se requiere utilizar algunas técnicas dependiendo de los tipos de datos. Por ejemplo, si estos son categóricos, como puede ser H para Hombre y M para Mujeres, se deberá codificarlos transformándolos en numéricos (0 para hombres y 1 para mujeres).
Parte del proceso implica validar que campos tienen correlación con los datos que se quieren proyectar. Por ejemplo, si objetivo del análisis es predecir en una población las personas que podrían tener diabetes en el futuro, se verificará los datos (edad, profesión, nivel de escolaridad, nivel de ingreso, antecedentes familiares, etc.) que se tengan de aquellas personas que ya no padecen.
El análisis de correlación permitirá entender si alguno de estos factores podría haber influido o si son comunes en aquellas personas que padecen la enfermedad. Los otros se descartan.
Finalmente, puede que sea necesario crear nuevos datos a partir de los existentes. Por ejemplo, para hacer un modelo de predicción de fallo de una maquinaria, podríamos tener las horas de operación (fecha, hora) del equipo y, adicionalmente, tengamos que agregar a esto un campo para identificar en qué horario se lo hizo (mañana o tarde). Entonces se crearía un campo que comprenda fecha + hora + horario.
Para enriquecer aún más el modelo a desarrollar, otra sugerencia es la de adquisición y mezcla de nuevas fuentes, las cuales pueden trabajarse considerando lo siguiente:
A continuación, nuestro mapa mental resumiendo este nuevo TIP sobre técnicas para procesar datos:
Desde 1995, hemos realizado con éxito +1.000 proyectos de distinta índole a más de 600 empresas en Latinoamérica, ayudándolas a ser más eficientes y competitivas, aprovechando las posibilidades que ofrecen los avances tecnológicos. Conozca cómo le podemos ayudar.
Av. Brasil N39-91 y Av. América. Edf. IACA, 4to. Piso
QUITO – ECUADOR
PBX : +593 2 244 7802
Llene el formulario y un representante de Novatech se pondrá en contacto con usted.