CAPÍTULO 3.- METRICA EN EL ESPACIO ESTADISTICO
Medidas de tendencia central
Una característica importante de cualquier población
es su posición, es decir, donde está situada con
respecto al eje de abscisas (Eje horizontal). En nuestro caso,
es importante saber si los datos se agrupan alrededor de 60
Kg. o de 90 Kg. o alrededor de 12 Kg. Una manera de obtener
un dato numérico que nos dé idea de la posición
de nuestra población es calcular el Promedio o Media
de todas las observaciones:
\( \bar{x} = \sum \frac{x_i}{N} \)
Este importante parámetro nos permite efectuar comparaciones
entre distintas poblaciones. Por ejemplo, si tuviéramos
una población formada por mediciones del peso de mujeres
de 30 años, otra de peso de varones de 40 años
y una tercera de peso de niños de 8 años, es indudable
que los promedios van a ser diferentes. El promedio, entonces,
nos está diciendo que las tres poblaciones son diferentes
y también en que medida difieren.
Ahora, si tuviéramos una población de varones
con peso promedio 70 Kg. y otra población de varones
con el mismo promedio, ¿se puede afirmar que ambas poblaciones
son equivalentes? Para responder esta pregunta necesitamos tener
medidas de la dispersión de la población de datos.
Medidas de Dispersión
La otra característica muy importante de una población
es el grado de dispersión de las observaciones. No es
lo mismo si en nuestra población encontramos que todos
los valores están entre 75 y 90 Kg. que si están
entre 60 y 105 Kg., aunque el promedio sea el mismo. Es necesario
agregar alguna idea de la dispersión de los valores.
Una manera es a través del Rango de las observaciones,
es decir, el valor Máximo y el valor Mínimo de
los datos de la población. Entonces, una descripción
mas realista acerca de los seres humanos sería decir
que pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg.
(Estos valores son supuestos).
Una manera más precisa de dar idea de la dispersión
de valores de una población es a través de la
Varianza o su raíz cuadrada, que es la Desviación
Standard. |
|
Vamos a calcular la varianza y la desviación
standard de un número pequeño de datos
(Una muestra) para ilustrar el cálculo. Supongamos
que se midió la altura de 10 personas adultas
y de sexo femenino, y se obtuvieron los valores siguientes
(en cm)
165 ; 163 ; 171 ; 156 ; 162 ; 159 ; 162 ; 168 : 159
; 167 |
El promedio de estas observaciones es:
\( \bar{x} = 1,632 \; cm \)
Si a cada una de las observaciones le restamos el promedio,
obtenemos los Residuos:
\( \scriptstyle \begin{array}{|c|c|c|c|c|c|c|c|c|c|c|} \hline
x_i & 165 & 163 & 171 & 156 & 162 & 159 & 162 & 168 & 159
& 167 \\ \hline x_i-\bar{x} & 1,8 & -0,2 & 7,8 & -7,2 & -1,2
& -4,2 & -1,2 & 4,8 & -4,2 & 3,8 \\ \hline \end{array} \)
Los residuos también nos dan una idea de la dispersión
de las observaciones individuales alrededor del promedio. Si
el valor absoluto (El valor numérico sin el signo) de
los residuos es grande, es porque los valores están muy
dispersos. Si el valor absoluto de los residuos es pequeño,
significa que las observaciones individuales están muy
cerca del promedio, y por lo tanto, hay poca dispersión.
Pero nosotros necesitamos un sólo número que nos
provea información acerca de la dispersión de
los valores. Si sumamos los residuos, como algunos son positivos
y otros negativos, se cancelarían entre sí, con
lo cual perdemos la información acerca de la dispersión.
Entonces, los elevamos al cuadrado:
\( \scriptstyle \begin{array}{|l|l|l|l|l|l|l|l|l|l|l|}
\hline
x_i & 165 & 163 & 171 & 156 & 162 & 159 & 162 & 168 & 159 & 167 \\ \hline
x_i-\bar{x} & 1,8 & -0,2 & 7,8 & -7,2 & -1,2 & -4,2 & -1,2 & 4,8 & -4,2 & 3,8 \\
\hline
(x_i-\bar{x})^2 & 3,24 & 0,04 & 60,84 & 51,84 & 1,44 & 17,64 & 1,44 & 23,04 & 17,64 & 14,44 \\
\hline
\end{array}
\)
Si ahora sumamos los residuos elevados al cuadrado, tenemos
un número donde se condensa toda la información
de la dispersión de la población:
\( \textrm{Suma de cuadrados} = \sum (x_i - \bar{x})^2 = 191,60 \; cm^2 \)
Este número, la suma de cuadrados, es dependiente del
número de datos N, y por lo tanto no nos sirve para comparar
poblaciones con distinto número de observaciones.
Pero si dividimos la suma de cuadrados por N, tenemos un número
que es independiente del número de observaciones, que
se denomina Varianza:
\( \textrm{Varianza} = \displaystyle \frac{\textrm{Suma de
cuadrados}}{N} = \frac{\sum (x_i - \bar{x})^2}{N}\)
En nuestro caso:
\( \textrm{Varianza} = \displaystyle \frac{191,60}{10} = 19,16
\; cm^2 \)
Las fórmulas anteriores son las que se aplican al cálculo
de la varianza y desviación standard de una población
de datos. Mas adelante veremos que las fórmulas a aplicar
en el caso de una muestra son ligeramente diferentes. La varianza
es un número que nos permite comparar poblaciones. Cuando
la dispersión de las observaciones es grande (Datos que
se alejan mucho por encima y por debajo del promedio), el valor
de los residuos (distancia entre cada dato y el promedio) será
grande. Entonces aumenta la suma de cuadrados de los residuos
y por lo tanto la varianza.
También se utiliza la raíz cuadrada de la varianza:
\( \textrm{Desviacion Standard} = \displaystyle \sqrt{\textrm{Varianza}} = \sqrt{\frac{\sum (x_i - \bar{x})^2}{N}} \)
Por lo tanto:
\( \textrm{Desviacion Standard} = \sqrt{19,16 \; cm^2} = 4,38 \; cm \)
La desviación standard o desviación típica
tiene las mismas unidades que la variable con la que estamos
trabajando, en nuestro caso el centímetro. Tanto la varianza
como la desviación standard nos permiten comparar el
grado de dispersión de distintas poblaciones.
|
|
|