CAPÍTULO 3.- METRICA EN EL ESPACIO ESTADISTICO
Medidas de tendencia central
Una característica importante de cualquier población
es su posición, es decir, donde está situada
con respecto al eje de abscisas (Eje horizontal). En nuestro
caso, es importante saber si los datos se agrupan alrededor
de 60 Kg. o de 90 Kg. o alrededor de 12 Kg. Una manera de
obtener un dato numérico que nos dé idea de
la posición de nuestra población es calcular
el Promedio o Media de todas las observaciones:
Este importante
parámetro nos permite efectuar comparaciones entre
distintas poblaciones. Por ejemplo, si tuviéramos una
población formada por mediciones del peso de mujeres
de 30 años, otra de peso de varones de 40 años
y una tercera de peso de niños de 8 años, es
indudable que los promedios van a ser diferentes. El promedio,
entonces, nos está diciendo que las tres poblaciones
son diferentes y también en que medida difieren.
Ahora, si tuviéramos una población de varones
con peso promedio 70 Kg. y otra población de varones
con el mismo promedio, ¿se puede afirmar que ambas
poblaciones son equivalentes? Para responder esta pregunta
necesitamos tener medidas de la dispersión de la población
de datos.
Medidas de Dispersión
La otra característica muy importante de una población
es el grado de dispersión de las observaciones. No
es lo mismo si en nuestra población encontramos que
todos los valores están entre 75 y 90 Kg. que si están
entre 60 y 105 Kg., aunque el promedio sea el mismo. Es necesario
agregar alguna idea de la dispersión de los valores.
Una manera es a través del Rango de las observaciones,
es decir, el valor Máximo y el valor Mínimo
de los datos de la población. Entonces, una descripción
mas realista acerca de los seres humanos sería decir
que pesan en promedio 70 Kg. y que el rango es de 40 a 120
Kg. (Estos valores son supuestos).
Una manera más precisa de dar idea de la dispersión
de valores de una población es a través de la
Varianza o su raíz cuadrada, que es la Desviación
Standard.
 |
Vamos a calcular la varianza y la desviación
standard de un número pequeño de datos
(Una muestra) para ilustrar el cálculo. Supongamos
que se midió la altura de 10 personas adultas
y de sexo femenino, y se obtuvieron los valores siguientes
(en cm)
165 ; 163 ; 171 ; 156 ; 162 ; 159 ; 162 ; 168 : 159
; 167 |
El promedio de estas observaciones es:
=
163, 2 cm
Si a cada una de las observaciones le restamos el promedio,
obtenemos los Residuos:
Los residuos también nos dan una idea de la dispersión
de las observaciones individuales alrededor del promedio. Si
el valor absoluto (El valor numérico sin el signo) de
los residuos es grande, es porque los valores están muy
dispersos. Si el valor absoluto de los residuos es pequeño,
significa que las observaciones individuales están muy
cerca del promedio, y por lo tanto, hay poca dispersión.
Pero nosotros necesitamos un sólo número que nos
provea información acerca de la dispersión de
los valores. Si sumamos los residuos, como algunos son positivos
y otros negativos, se cancelarían entre sí, con
lo cual perdemos la información acerca de la dispersión.
Entonces, los elevamos al cuadrado:
Si ahora sumamos
los residuos elevados al cuadrado, tenemos un número
donde se condensa toda la información de la dispersión
de la población:
Este número,
la suma de cuadrados, es dependiente del número de datos
N, y por lo tanto no nos sirve para comparar poblaciones con
distinto número de observaciones.
Pero si dividimos la suma de cuadrados por N, tenemos un número
que es independiente del número de observaciones, que
se denomina Varianza:
En nuestro
caso:
Las fórmulas
anteriores son las que se aplican al cálculo de la varianza
y desviación standard de una población de datos.
Mas adelante veremos que las fórmulas a aplicar en el
caso de una muestra son ligeramente diferentes. La varianza
es un número que nos permite comparar poblaciones. Cuando
la dispersión de las observaciones es grande (Datos que
se alejan mucho por encima y por debajo del promedio), el valor
de los residuos (distancia entre cada dato y el promedio) será
grande. Entonces aumenta la suma de cuadrados de los residuos
y por lo tanto la varianza.
También se utiliza la raíz cuadrada de la varianza:
Por lo tanto:
La desviación
standard o desviación típica tiene las mismas
unidades que la variable con la que estamos trabajando, en nuestro
caso el centímetro. Tanto la varianza como la desviación
standard nos permiten comparar el grado de dispersión
de distintas poblaciones.
Media y Varianza de una
Muestra
|
|