x

Cómo determinar el tipo de distribución posible de datos

Escrito por Contributor última actualización: February 01, 2018
Stockbyte/Stockbyte/Getty Images

Cuando tienes datos almacenados en tu sistema o proceso, el siguiente paso es determinar qué tipo de distribución probable uno tiene. Los tipos de distribución posible son: uniforme discreta, Bernoulli, binomio, binomio negativo, Poisson, geométrica, uniforme continua, normal (curva de campana), exponencial, gamma y beta. La reducción de incluso unos pocos tipos de la lista de posibilidades determina cual es el valor R al cuadrado más cercano mucho más rápido.

Grafica los datos para una representación visual del tipo de datos.

Uno de los primeros pasos para determinar qué distribución de datos uno tiene y por lo tanto el tipo de ecuación a utilizar para modelar los datos, es para descartar lo que no puede ser. • Si hay algún pico en el conjunto de datos, no puede ser una distribución uniforme discreta. • Si los datos tienen más de un pico, no es Poisson o binomio. • Si tiene una sola curva, no hay picos secundarios, y tiene una pequeña pendiente en cada lado, podría ser una distribución Poisson o gamma. Pero no podrá ser una distribución uniforme discreta. • Si los datos se distribuyen de manera uniforme, y es sin inclinar hacia un lado, es seguro excluir una distribución gamma o Weibull. • Si la función tiene una distribución uniforme o un pico en el medio de los resultados graficados, no es una distribución geométrica o una distribución exponencial. • Si la ocurrencia de un factor varía con una variable ambiental, probablemente no sea una distribución Poisson.

Después de que el tipo de distribución de probabilidad se ha reducido, haz un análisis de R cuadrado de cada posible tipo de distribución de probabilidad. El que tenga el mayor valor R cuadrado es probablemente el correcto.

Elimina un dato atípico. A continuación, vuelve a calcular R cuadrado. Si el mismo tipo de distribución de probabilidad aparece como la coincidencia más cercana, luego hay un alto grado de confianza de que se trate de la distribución de probabilidad correcta para utilizar en el conjunto de datos.

Consejos

Si los datos muestran varios picos de una amplia dispersión, es posible que haya dos procesos separados o que el producto de muestra se mezcle. Recolecta los datos y luego vuelve a analizarlos.

Advertencias

Valida las ecuaciones generadas con los datos anteriores para confirmar que todavía son precisos para el conjunto de datos. Es posible que los factores ambientales y la derivación del proceso hagan las ecuaciones y los modelos actuales incorrectos.

Este artículo fue escrito, editado y revisado exhaustivamente por el equipo de Cuida Tu Dinero con la finalidad de asegurar que los lectores reciban la mejor y más detallada información posible. Para enviarnos tus inquietudes, ideas o simplemente saber más acerca de Cuida Tu Dinero, escríbenos aquí.

Créditos fotográficos

  • Stockbyte/Stockbyte/Getty Images