sábado, 24 de mayo de 2008

diagrama de cajas

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.

Como dibujarlo
Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).

area bajo la curva normal

DISTRIBUCION NORMAL

La distribución normal es muy importante por lo siguiente:

1. Es la distribución a la que se aproximan la mayoría de los fenómenos físicos, Químicos, Biólogicos
2. Se ha tomado como base en la inferencia estadística paramétrica

3. Otras distribuciones bajo ciertas circunstancias se pueden aproximar a la normal

4. Es la base para definir otras distribuciones de importancia tales como la Chi cuadrada, t de Student y F de Fisher.

CARACTERISTICAS DE LA DISTRIBUCION NORMAL

1. Forma
Es una campana simétrica con respecto a su centro
La curva tiene un solo pico; por tanto, es unimodal.
La media de una población distribuida normalmente cae en el centro de su curva normal.
Debido a la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución se encuentran también en el centro; en consecuencia, para una curva normal, la media, la mediana y la moda tienen el mismo valor.
Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal

2. Parámetros
Está caracterizada por dos parámetros

a).- Parámetro de localización: La media
b).- Parámetro de forma: La varianza


3. Función de densidad

Para determinar las áreas bajo la curva de función de densidad normal se requiere integrar la ecuación anterior, desafortunadamente no existe una solución exacta para la integral, por lo que su evaluación solamente puede obtenerse utilizando métodos de aproximación. Por esta razón, se aprovechó la propiedad de transformación de cualquier curva normal a la NORMAL ESTANDAR utilizando una nueva variable aleatoria Z llamada variable aleatoria normal estándar.

Si X ~ N ( µ, s2 ) entonces X puede transformarse en Z



AREAS BAJO LA CURVA NORMAL

No importa cuáles sean los valores de la para una distribución de probabilidad normal, el área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si fueran probabilidades. Matemáticamente es verdad que:

1.Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra dentro de desviación estándar de la media.

2. Aproximadamente 95.5 % de todos los valores de una población normalmente distribuida se encuentra dentro de desviación estándar de la media.

3. Aproximadamente 99.7 % de todos los valores de una población normalmente distribuida se encuentra dentro de desviación estándar de la media.









USO DE LA TABLA DE DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR

DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR
Áreas bajo la distribución de probabilidad Normal Estándar
entre la media y valores positivos de Z
m = 0 y s²=1

Observe en esta tabla la localización de la columna identificada con z. El valor de z está derivado de la formula:


X = valor de la variable aleatoria que nos preocupa
media de la distribución de la variable aleatoria
= desviación estándar de la distribución
Z = número de desviaciones estándar que hay desde x a la media de la distribución

Utilizamos Z en lugar del ‘ número de desviaciones estándar’ porque las variables aleatorias normalmente distribuidas tienen muchas unidades diferentes de medición: dólares, pulgadas, partes por millón, kilogramos, segundos. Como vamos a utilizar una tabla, la tabla I, hablamos en términos de unidades estándar (que en realidad significa desviaciones estándar), y denotamos a éstas con el símbolo z.

X
-25 0 25 50 75 100 125
----------------------------------------- Z =
-3 -2 -1 0 1 2 3


La tabla representa las probabilidades o áreas bajo la curva normal calculadas desde la hasta los valores particulares de interés X. Usando la ecuación de Z, esto corresponde a las probabilidades o áreas bajo la curva normal estandarizada desde la media ( = 0) hasta los valores transformados de interés Z.
Sólo se enumeran entradas positivas de Z en la tabla , puesto que para una distribución simétrica de este tipo con una media de cero, el área que va desde la media hasta +Z (es decir, Z desviaciones estándar por encima de la media) debe ser idéntica al área que va desde la media hasta –Z (es decir, Z desviaciones estándar por debajo de la media).
También podemos encontrar la tabla que indica el área bajo la curva normal estándar que corresponde a P(Z < z) para valores de z que van de –3.49 a 3.49.
Al usar la tabla observamos que todos los valores Z deben registrarse con hasta dos lugares decimales. Por tanto, nuestro valor de interés particular Z se registra como +.2. para leer el área de probabilidad bajo la curva desde la media hasta Z = +.20, podemos recorrer hacia abajo la columna Z de la tabla hasta que ubiquemos el valor de interés Z. Así pues, nos detenemos en la fila Z = .2. A continuación, leemos esta fila hasta que intersecamos la columna que contiene el lugar de centésimas del valor Z. Por lo tanto, en la tabla, la probabilidad tabulada para Z = 0.20 corresponde a la intersección de la fila Z = .2 con la columna Z = .00 como se muestra.