Cómo determinar el tipo de distribución posible de datos

Escrito por Contributor ; última actualización: February 01, 2018
Cuando tienes datos almacenados en tu sistema o proceso, el siguiente paso es determinar que tipo de distribución probable uno tiene.

Cuando tienes datos almacenados en tu sistema o proceso, el siguiente paso es determinar qué tipo de distribución probable uno tiene. Los tipos de distribución posible son: uniforme discreta, Bernoulli, binomio, binomio negativo, Poisson, geométrica, uniforme continua, normal (curva de campana), exponencial, gamma y beta. La reducción de incluso unos pocos tipos de la lista de posibilidades determina cual es el valor R al cuadrado más cercano mucho más rápido.

Grafica los datos para una representación visual del tipo de datos.

Uno de los primeros pasos para determinar qué distribución de datos uno tiene y por lo tanto el tipo de ecuación a utilizar para modelar los datos, es para descartar lo que no puede ser. • Si hay algún pico en el conjunto de datos, no puede ser una distribución uniforme discreta. • Si los datos tienen más de un pico, no es Poisson o binomio. • Si tiene una sola curva, no hay picos secundarios, y tiene una pequeña pendiente en cada lado, podría ser una distribución Poisson o gamma. Pero no podrá ser una distribución uniforme discreta. • Si los datos se distribuyen de manera uniforme, y es sin inclinar hacia un lado, es seguro excluir una distribución gamma o Weibull. • Si la función tiene una distribución uniforme o un pico en el medio de los resultados graficados, no es una distribución geométrica o una distribución exponencial. • Si la ocurrencia de un factor varía con una variable ambiental, probablemente no sea una distribución Poisson.

Después de que el tipo de distribución de probabilidad se ha reducido, haz un análisis de R cuadrado de cada posible tipo de distribución de probabilidad. El que tenga el mayor valor R cuadrado es probablemente el correcto.

Elimina un dato atípico. A continuación, vuelve a calcular R cuadrado. Si el mismo tipo de distribución de probabilidad aparece como la coincidencia más cercana, luego hay un alto grado de confianza de que se trate de la distribución de probabilidad correcta para utilizar en el conjunto de datos.

Consejos

Si los datos muestran varios picos de una amplia dispersión, es posible que haya dos procesos separados o que el producto de muestra se mezcle. Recolecta los datos y luego vuelve a analizarlos.

Advertencias

Valida las ecuaciones generadas con los datos anteriores para confirmar que todavía son precisos para el conjunto de datos. Es posible que los factores ambientales y la derivación del proceso hagan las ecuaciones y los modelos actuales incorrectos.

Sobre el autor

This article was created by a professional writer and edited by experienced copy editors, both qualified members of the Demand Media Studios community. All articles go through an editorial process that includes subject matter guidelines, plagiarism review, fact-checking, and other steps in an effort to provide reliable information.

Créditos fotográficos

  • Stockbyte/Stockbyte/Getty Images
bibliography-icon icon for annotation tool Cite this Article