|
|
TEOREMA
CENTRAL
DEL
LÍMITE
|
DISTRIBUCIONES
MUESTRALES DE MEDIAS
Hemos
dicho ya, que el
objetivo de nuestro
estudio es poder
extender a la
población lo que
obtengamos de una
muestra. Imagina
que de la población
formada por todos
los alumnos del
instituto, extraes
aleatoriamente una
muestra de 40
alumnos, y les
preguntas por su
edad, encontrando
que la edad media
obtenida es de 15,8
años . Pero,
¿qué ocurriría,
si extrajéramos
otra muestra?.
¿Coincidirían las
medias ?.¿ Y
coincidirían con la
media de la
población?. Lo
cierto es que parece
lógico pensar que
aunque no tengan
porqué coincidir,
si deberían estar
bastante próximas.
Pero, ¿cuánto de
próximas?,
¿dependería esta
proximidad del
tamaño de las
muestras que
elegimos?. Parece
necesario, que
estudiemos la
variabilidad de las
medias obtenidas de
las muestras que
repetidamente se
extraigan. El
siguiente resultado, responde
claramente a las
preguntas
planteadas.
EL
TEOREMA CENTRAL DEL
LÍMITE (TCL)
Imagina que
tienes una
población con media
m
y desviación
típica s
. y que extraes
aleatoriamente todas
las posibles
muestras, todas
ellas de tamaño n.
Si obtuvieras las
medias de todas
estas muestras, y
las consideras una
distribución de
datos (la
distribución
muestral de medias),
comprobarías que: a)
La media de los
datos, es la media m
de la
población , es
decir la media de
las medias de las
muestras, es igual
que la media de la
población. b)
Estas medias se
distribuyen
alrededor de la
media
de la
población, con una
desviación típica
(llamada desviación
típica de la media,
) igual a la de la
población dividida
por la raíz de n,
es decir, la d.t. de
la media es 
c)
La distribución de
las medias
muestrales, es una
distribución
de tipo
"normal",
siempre que la
población de
procedencia lo sea,
o incluso si no lo
es, siempre que el
tamaño de las
muestras sea 30 o
mayor. En
consecuencia,
"si una
población tiene
media m
y d.t. s
, y tomamos muestras
de tamaño n
( de tamaño
al menos 30,
o cualquier
tamaño, si la
población es
"normal"),
las medias de estas
muestras siguen
aproximadamente la
distribución (1)
Además, cuanto
mayor es el valor de
n,
mejor es la
aproximación
"normal". Hemos
nombrado un concepto
importante:
la d.t. de la
media ,
que es el grado de
variabilidad de las
medias muestrales.
Cuanto menor sea,
más ajustadas a la
media de la
población serán
las medias que
obtengamos de una
muestra. De su
propia definición,
es fácil darse
cuenta de que cuanto
mayor es el tamaño
de la muestra, menor
es este grado de
variabilidad, y por
tanto más similar a
la media de la
población será la
media obtenida de la
muestra.
|
|
Observa
el
gráfico
interactivo.
La
línea
negra,
representa
la
distribución
de
los
datos
de
la
población
(que
en
este
caso
es
normal
N(m,s)).
La
morada,
la
de
las
medias
muestrales,
es
decir
(1).
Puedes
cambiar
los
valores
de
n,
el
tamaño
de
la
muestra,
y
d.t.,
la
desviación
típica
s
de
la
población
y
observar
como
se
comportan
ambas
distribuciones
dependiendo
de
dichos
valores. |
NOTAS
IMPORTANTES Nuestra
afirmación
de
que
la
desviación
típica
de
la
media
es

,
se
hace
asumiendo
que
la
población
es
infinita
(
o
el
muestreo
se
realiza
con
reemplazamiento
).
En
caso
contrario,
se
debe
utilizar
el
"factor
de
corrección
para
poblaciones
finitas",
de
forma
que
la
d.t.
de
la
media
quedaría:
donde
N
es
el
tamaño
de
la
población
y
n
el
de
la
muestra. En
la
práctica
y
como
regla
general,
se
usa
el
coeficiente
anterior
tan
sólo
cuando
el
tamaño
de
una
muestra
es
superior
al
5%
de
la
población.
Nosotros
no
tendremos
en
cuenta
este
factor,
pues
no
se
resta
profundidad
a
los
conceptos
estudiados
al
tiempo
que
se
simplifica
su
estudio. Además
estudiaremos
tan
sólo
el
caso
correspondiente
a
muestras
de
más
de
30
elementos.
llamadas
"muestras
grandes".
Para
muestras
de
menor
tamaño,
se
han
de
utilizar
distribuciones
distintas
de
la
Normal,
y
está
fuera
del
alcance
de
este
curso. Habremos
de
suponer
que
conocemos
la
desviación
típica
de
la
población
(s),
(aunque
resulta
improbable
conocerla
y
desconocer
la
media),
o
bien
al
menos
la
desviación
típica
muestral
(s)
(también
llamada
cuasivarianza,
que
resulta
ser
una
buena
aproximación
de
la
desviación
típica
de
la
población
para
muestras
grandes). Este
último
parámetro
se
define
como
donde
es
la
media
de
la
muestra.
Es
decir
es
la
desviación
típica
de
la
muestra
corregida
dividiendo
por
n-1
en
lugar
de
por n
.
Al
hacer
esto,
el
valor
de
s
aumentará.
Se
trata
pues
de
hacer
una
sobreestimación
de
la
desviación
típica,
para
compensar
el
error
cometido
al
tomar
una
muestra.
En
las
calculadoras
que
utilizamos
se
obtiene
pulsando
.
|
En
términos mas
coloquiales, lo que
en definitiva
establece el TCL, es
que la distribución
de la media, o de
las sumas , de
diferentes valores
da como resultado
una distribución
normal. De ahí la
omnipresente
aparición de
distribuciones
normales. Piensa en
los factores
biológicos y
antropométricos.
Por ser el resultado
de diferentes
combinaciones
genéticas y suma de
muchos diferentes
factores, dan como
resultados
distribuciones
normales. También
por análogas
razones muchísimos
parámetros
sociológicos,
económicos,
físicos,.. siguen
distribuciones de
este tipo.
EJEMPLO: Una
compañía
aérea sabe que
el equipaje de
sus pasajeros
tiene como
media 25 kg.
con una d.t. de
6 kg.
Si uno
de sus aviones
transporta a 50
pasajeros, el
peso medio de
los equipajes
de dicho grupo
estará en la
distribución
muestral de
medias 
La
probabilidad de
que el peso
medio para
estos pasajeros
sea superior a
26 kg sería: 
Si
el avión no
debe cargar
más de 1300 kg
en sus bodegas,
la media del
conjunto de los
50 pasajeros no
debe superar
los 
En
consecuencia en
un 11,9% de los
casos los
aviones de esta
compañía
superan el
margen de
seguridad.
|
ACTIVIDADES
|
1.-Sabemos
que
el
tiempo
medio
de
espera
en
las
colas
del
Banco
"El
interés
interesado"
es
de
15
min.
con
una
desviación
típica
de
5
minutos.
Si
tomasemos
al
azar
a
un
grupo
de
35
clientes: a)
¿Cuál
es
la
probabilidad
de
que
el
tiempo
medio
de
espera
del
grupo
fuera
menor
de
17
minutos?
b)
¿Cuál
es
la
probabilidad
de
que
estuviera
entre
12
y
16
minutos?
c)
¿Entre
qué
valores
se
encontraría
el
tiempo
medio
con
una
seguridad
del
95%?.
¿Y
del
99%?.
2.-En
un
almacén
se
trabaja
con
bultos
de
igual
volúmen,
cuyo
peso
se
distribuye
según
N(250,45)
expresados
en
kg.
Los
elevadores
encargados
de
su
transporte
dentro
del
almacén,
pueden
aguantar
hasta
un
peso
máximo
total
de
2000
kg.
Si
la
empresa
decide
que
las
carretillas
se
carguen
con
7
bultos
cada
vez:
a)
¿Cuál
es
la
probabilidad
de
que
se
supere
el
peso
máximo
de
seguridad?
b)
¿Cuántos
bultos
de
cada
vez
harían
falta
para
que
dicha
probabilidad
fuera
menor
del
0,1%?
3.-En
unos
grandes
almacenes,
la
media
de
los
salarios
es
de
105.000
pts,
con
una
d.t.
de
25.000
pts.
Si
preguntaramos
a
35
empleados
elegidos
aleatoriamente,
por
su
sueldo,
¿Cuál
es
la
probabilidad
de
que
la
media
correspondiente
a
los
35
fuera
inferior
a
100.000
pts? 4.-
En
unas
negociaciones
sindicales
correpondientes
al
sector
turístico,
la
patronal
alega
que
en
un
establecimiento
tipo
de
40
empleados,
en
el
90%
de
los
casos
la
suma
de
los
sueldos
mensuales
pagados
superan
los
5.000.000
de
pts.
Los
sindicatos
disponen
de
cifras
oficiales
según
las
cuales,
en
el
sector
la
media
de
sueldos
es
de
120.000
pts
con
una
d.t.
de
10.000
pts.
¿Pueden
rebatir
"estadísticamente"
lo
alegado
por
la
patronal?
Los
sindicatos
te
piden
redactar
un
informe
ilustrado
con
cifras
que
les
permita
contestar
a
la
patronal. |
Hemos
estudiado ya el
T.C.L., que nos
permite conocer
de que forman
se distribuyen
las medias de
las muestras de
una población. Ahora
invertiremos el
caso: se
selecciona una
muestra de una
población de
la que se
desconoce la
media, y se
calcula la
media muestral.
A partir de
aquí haremos
una inferencia
sobre la media
poblacional,
con base en la
media muestral. Imaginemos
que preguntamos
a una muestra
de 40 alumnos,
por el
recorrido en
km. que tienen
que hacer todos
los días para
llegar al
instituto, y
que la media de
tal muestra es
de 3 km. Las
dos preguntas
siguientes
responden
a las
dos formas de
inferencia que
estudiaremos en
este curso: 1º.-
Si nos habían
dicho que la
media de
distancia de
todo el
instituto era
el año pasado
de 3,8 km, ¿es
significativamente
diferente esta
media?, o lo
que es lo
mismo,
¿podemos decir
que la media
del instituto
ha cambiado
este año, o
por el
contrario la
diferencia de
medias es
normal y se
debe al azar al
elegir los
elementos de la
muestra? Esta
pregunta
implica una
decisión,
que podremos
tomar a través
de los
denominados test
de contraste de
hipótesis. 2º.-
Tomando como
base la muestra
(es decir si
suponemos que
desconocemos la
distancia
media), ¿qué
estimación
puede hacerse
sobre la media
poblacional (
es decir la de
todo el
Instituto) ? Esta
pregunta
implica una estimación,
que
aprenderemos a
hacer ahora.
|