CAPÍTULO 3.- METRICA EN EL ESPACIO ESTADISTICO
Medidas de tendencia central
Media
y Varianza de una Muestra
Hasta ahora hemos visto como se calcula la media o promedio
de una población y también como se calcula la
varianza y la desviación standard de una población
o universo de observaciones. Cuando tenemos una muestra (Subconjunto
de algunos datos extraídos de una población),
también podemos calcular su media, su varianza y su desviación
standard. Es muy importante distinguir entre la media, varianza
y desviación standard poblacional, de la media, varianza
y desviación standard muestral.
La media, varianza y desviación standard de una población
o universo se denominan parámetros de la población
y en general se designan con letras griegas: μ
para la Media, σ2 para
la Varianza y σ para la Desviación
Standard poblacionales. En el caso de una muestra, la media,
varianza y desviación standard se denominan estadísticos
y se utilizan letras de nuestro alfabeto:
para
la Media
s2 para la Varianza
s para la Desviación Standard
muestral
El cálculo de la varianza y la desviación standard
de una muestra de n observaciones se realiza con una fórmula
levemente diferente que la ya vista para la varianza y desviación
standard de una población:


En lugar de dividir por n, el número total de observaciones
en la muestra, dividimos por n - 1. Este valor, n - 1, son los
Grados de Libertad de la muestra. En general, cuando tenemos
una muestra de n observaciones, se dice que la misma tiene n
- 1 grados de libertad.
La media, varianza y desviación standard de una muestra,
en general, no van a coincidir con los mismos parámetros
de la población de la cual se extrajo la muestra (Aunque
usemos la misma fórmula para calcular la varianza muestral
y poblacional). Si extraemos n muestras de una población,
vamos a obtener n promedios muestrales distintos del promedio
de la población y n varianzas muestrales distintas de
la varianza de la población. Esto se debe a que una población
o universo tienen un número muy grande de datos, mientras
que una muestra son sólo algunos pocos datos extraídos
de ese universo. Cuando sacamos una segunda, tercera, ... etc.
muestras, los datos extraídos no tienen por que ser los
mismos que en la primer muestra. Por lo tanto, el promedio y
la varianza de las muestras van a ser distintos para las distintas
muestras, y distintos de la media y la varianza de la población
de la cual se extrajeron las muestras.
Muestreo Aleatorio
En general, no es posible disponer de todas las observaciones
de un universo o población, ya sea porque es un universo
hipotético o porque la disposición de todos los
datos resulta una tarea excesiva para nuestras posibilidades.
Normalmente se dispone de una muestra de datos extraídos
de un universo, y lo que se pretende es estimar (Conocer de
manera aproximada) los parámetros del universo por medio
de cálculos realizados sobre la muestra. En este sentido
decimos que la media muestral es una estimación de la
media del universo, y que la varianza y desviación standard
muestrales son estimaciones de la varianza y desviación
standard poblacionales respectivamente.
Veamos algunos ejemplos. Supongamos que un partido político
necesita averiguar la cantidad de personas que están
dispuestas a votar por su candidato. Entonces, encarga a una
empresa la realización de una encuesta un día
previo a las elecciones. El encargado de la encuesta podría
pensar en consultar la intención de voto de toda la población
de votantes (Mas de 40 millones en España). Esto, obviamente,
es una tarea excesiva que por distintas razones no se puede
realizar. Entonces, el camino que resta es tomar una muestra
representativa de esa población de personas y consultar
la intención de voto en esa muestra. Los resultados que
se obtengan son solamente una estimación del resultado
que se hubiera obtenido si la consulta se hubiera efectuado
sobre toda la población de votantes.
Ahora bien, ¿cómo se obtiene una muestra representativa?
Para tratar de entenderlo, vamos a trabajar con una población
de muy pocos datos. Supongamos que nuestra población
son 10 bolas con los siguientes números 2, 5 y 9 y una
frecuencia según la tabla adjunta:
El promedio
de la población es 4. Supongamos que queremos obtener
una muestra de 5 elementos de esa población. Hay varias
formas de hacerlo. Supongamos que puedo ver los números
y elijo 2, 2, 2, 2 y 5. El promedio de estos 5 números
extraídos de la población es 2,6 que difiere sustancialmente
del promedio de la población
Es evidente que dicha muestra no es representativa de la población
de la que fue extraída. No se mantiene la misma proporción
de cada número que existe en la población. Una
muestra de 5 elementos en la que hay la misma proporción
de cada dígito debería tener 3 dos, 1 cinco y
1 nueve, y su promedio es 4, el mismo de la población:
En una población de muchos datos, no es posible obtener
una muestra eligiendo cada elemento para que figure en la misma
proporción que en la población, porque para ello
deberíamos disponer de todos los datos de la misma, y
en ese caso no sería necesario sacar una muestra. Si
a cada elemento de la población se le da la misma oportunidad
de ser elegido, entonces se supone que cada número estará
en la muestra en un número proporcional a la cantidad
de veces que está en la población. Por ejemplo,
el 2 va a estar en la muestra mas veces que el 5, porque en
la población hay 6 dos y sólo 2 cincos.
|
Si
introducimos las diez bolas en una bolsa y las mezclamos
suficientemente, la probabilidad que tiene una bola
individual de ser extraída es la misma para cualquiera
de las bolas. |
En
esas condiciones, si extraemos cinco bolas sucesivas,
mezclándolas previamente en cada oportunidad,
es razonable pensar que vamos a sacar el 2 en más
oportunidades que el 5 ó el 9.Esta forma de obtener
la muestra es lo que se conoce como Muestreo Aleatorio. |
 |
El muestreo
aleatorio no garantiza que la muestra va a ser representativa
de la población, pero al eliminar toda influencia externa
en el acto de extraer un elemento de la población, la
proporción de cada uno estará influida sólo
por la cantidad de veces que está presente en la población
de la cual se extrae la muestra.
Entonces,
realizando el muestreo en forma aleatoria (al azar),
la probabilidad de obtener una muestra representativa
de la población es mayor que si en la elección
de los elementos de la muestra interviene la voluntad
del que efectúa la operación o algún
otro factor de influencia |
 |
|
|