En algunas ocasiones debemos construir una distribución normal con una muestra de datos para poder visualizar la información de una forma mas digerible y clara con el fin de que esto nos permita entender cómo se comportan nuestros datos y cuáles son sus características para posteriormente darles un manejo mucho más adecuado y llegar a una conclusión mucho más acertada.
Para este ejercicio, tomaremos como ejemplo los resultados de un muestreo en donde se tomó el tiempo (en segundos) resultante de recorrer una distancia de 1 kilómetro a un grupo de 100 deportistas.
Luego de tener nuestros datos cargados en Power BI, procedemos a obtener el promedio y la desviación estándar generando dos medidas:
Posteriormente, debemos establecer los máximos y los mínimos de nuestra distribución, para lo cual aplicaremos los conceptos del 3σ sumando y restando 3 veces la desviación estándar al promedio previamente calculado generando dos medidas más. Esto con el fin de tener el 99% de los datos cubiertos.
Al contar ya con las medidas de máximos, mínimos, promedio y desviación estándar, generaremos una tabla auxiliar en donde crearemos una columna llamada X iniciando en el valor mínimo y finalizando en el valor máximo con un intervalo de 1 entre cada valor, con el fin de establecer nuestro rango.
Al obtener este rango, procedemos a generar una columna adicional a la cual llamaremos Z, la cual será la estandarización de cada valor de X para nuestra distribución aplicando la siguiente fórmula:
Este valor nos indica a cuántas desviaciones estándar está el valor de X y en qué dirección. Con este valor, podemos comprobar si los máximos y mínimos calculados previamente son correctos de acuerdo con los conceptos 3σ.
Posterior al cálculo de esta columna, generaremos una medida con la función F(X) que nos dará los valores de nuestra distribución basándonos en la siguiente fórmula:
Para visualizar nuestro resultado en forma de tabla, en el panel de visualizaciones seleccionamos la gráfica de tabla y en los valores agregamos la columna X y la columna Z. Luego, desactivamos el total general y posteriormente adicionamos a la gráfica la medida F(x). Si no se desactivan los totales antes de adicionar la medida, la gráfica generará un error.
Para visualizarlo en forma gráfica, en el panel de visualizaciones seleccionaremos la gráfica de columnas y líneas. En el eje compartido llamamos a la columna X o Z dependiendo del escenario buscado y en los valores de línea llamamos a la variable F(x) previamente calculada.