Población estadística
El agregado estadístico es un conjunto de unidades que tienen un carácter masivo, tipicidad, homogeneidad cualitativa y la presencia de una variación.
El agregado estadístico consiste en objetos materialmente existentes (trabajadores, empresas, países, regiones), es objeto de investigación estadística .
La unidad del agregado es cada unidad específica del agregado estadístico.
Uno y el mismo agregado estadístico puede ser homogéneo por una característica y es heterogéneo de otra manera.
Homogeneidad cualitativa : la similitud de todas las unidades del agregado sobre alguna base y la falta de uniformidad en todas las demás.
En el agregado estadístico, las diferencias de una unidad del agregado con respecto a la otra son a menudo de naturaleza cuantitativa. Los cambios cuantitativos en los valores del signo de diferentes unidades del agregado se llaman variaciones.
La variación del rasgo es el cambio cuantitativo en el rasgo (para una característica cuantitativa) en la transición de una unidad del agregado a otro.
Una característica es una propiedad, un rasgo característico u otra característica de unidades, objetos y fenómenos que se pueden observar o medir. Los signos se dividen en cuantitativos y cualitativos. La variedad y variabilidad de la magnitud de una característica en unidades individuales de una población se llama variación .
Los signos atributivos (cualitativos) no pueden expresarse numéricamente (composición de la población por sexo). Las características cuantitativas tienen una expresión numérica (composición de la población por edad).
Un indicador es una característica general cuantitativa cualitativa de una propiedad de unidades o un agregado en objetivos en condiciones específicas de tiempo y lugar.
El sistema de indicadores es un conjunto de indicadores que reflejan integralmente el fenómeno en estudio.
Por ejemplo, el salario se estudia:- Firmar - pagar
- Población estadística - todos los empleados
- Unidad de unidad: cada empleado
- Homogeneidad cualitativa - salario devengado
- Variación de la característica - una serie de números
Población general y muestra de ella
La base de la investigación estadística es el conjunto de datos obtenidos como resultado de la medición de una o varias características. Conjunto de objetos realmente observados, representados estadísticamente por una serie de observaciones
Un ejemplo Casi el mismo conjunto de objetos seleccionados aleatoriamente -los bancos comerciales de un distrito administrativo de Moscú- pueden considerarse como una muestra de la totalidad general de todos los bancos comerciales de este distrito y como una muestra de la población general de todos los bancos comerciales de Moscú, así como una muestra de bancos comerciales del país y etc.
Métodos básicos de muestreo
La confiabilidad de las conclusiones estadísticas y la interpretación significativa de los resultados depende de la representatividad de la muestra, es decir Completitud y adecuación de la representación de las propiedades de la población general, en relación a la cual esta muestra puede considerarse representativa. El estudio de las propiedades estadísticas de la población puede organizarse de dos maneras: a través de la observación continua y no continua . Una observación continua proporciona un examen de todas las unidades de la población estudiada, y la observación no continua (selectiva) es solo una parte de ella.
Hay cinco formas principales de organizar la observación selectiva:
1. selección aleatoria simple , en la cual
2. La selección simple mediante un procedimiento regular se lleva a cabo con la ayuda de un componente mecánico (por ejemplo, fecha, día de la semana, número de apartamento, letra del alfabeto, etc.) y las muestras obtenidas de esta manera se llaman mecánicas ;
3. El muestreo estratificado consiste en el hecho de que la totalidad del volumen
4. Los métodos de selección en serie se usan para formar muestras en serie o anidadas . Son convenientes si es necesario inspeccionar un "bloque" o una serie de objetos a la vez (por ejemplo, un lote de productos, productos de una determinada serie o población en la división territorial-administrativa del país). La selección de series puede llevarse a cabo de forma puramente aleatoria o mecánica. En este caso, se lleva a cabo una encuesta continua de un cierto lote de bienes, o una unidad territorial completa (una vivienda o un bloque);
5. La selección combinada (paso a paso) puede combinar varios métodos de selección a la vez (por ejemplo, estratificado y aleatorio o aleatorio y mecánico); tal muestra se llama combinada .
Tipos de selección
En apariencia , se distinguen la selección individual, grupal y combinada. Con la selección individual , se seleccionan unidades selectivas de la población general en la muestra, en el caso de la selección grupal , grupos (unidades) de unidades cualitativamente homogéneos, y la selección combinada implica una combinación de la primera y la segunda especie.
Por el método de selección, se distingue un muestreo repetitivo y repetitivo .
La selección no está cuestionada , en la cual la unidad en la muestra no regresa a la población original y no participa en la selección posterior; mientras que el número de unidades de la población general N se reduce en el proceso de selección. Tras la selección, la unidad muestreada después del registro se devuelve a la población general y, por lo tanto, conserva una oportunidad igual junto con otras unidades para ser utilizadas en el procedimiento de selección posterior; mientras que el número de unidades de la población general de N permanece sin cambios (el método se usa raramente en estudios socioeconómicos). Sin embargo, para N grande (N → ∞), las fórmulas para la selección sin repetición son similares a las de la selección repetida , y las últimas ( N = const ) se usan con mayor frecuencia.
Principales características de los parámetros de la población general y muestra
Las conclusiones estadísticas de este estudio se basan en la distribución de una variable aleatoria
Por su naturaleza, las distribuciones son continuas y discretas . La distribución continua más conocida es normal . Análogos selectivos de parámetros
Dependiendo del tipo de distribución y del método de selección de unidades de la población, las características de los parámetros de distribución se calculan de forma diferente. Los principales para distribuciones teóricas y empíricas se dan en la Tabla. 9.1.
La fracción de muestra k n es la relación entre el número de unidades de la muestra y el número de unidades de la población general:
k n = n / N.
La fracción selectiva w es la relación de las unidades que poseen la característica estudiada x con el tamaño de muestra n :
w = n n / n .
Un ejemplo En el envío de mercancías que contienen 1000 unidades, con una muestra del 5% , el tamaño de muestra k n en el valor absoluto es de 50 unidades. (n = N * 0.05); Si, en esta muestra, se encuentran 2 elementos defectuosos, la fracción selectiva de rechazo w es 0.04 (w = 2/50 = 0.04 o 4%).
Como el conjunto de muestreo es diferente del general, se producen errores de muestreo .
Tabla 9.1 Parámetros básicos de las poblaciones generales y de muestraErrores de muestreo
Con cualquier observación estadística (continua y selectiva), pueden ocurrir errores de dos tipos: registro y representatividad. Los errores de registro pueden ser aleatorios y sistemáticos . Los errores aleatorios se componen de muchas causas diferentes no controladas, son involuntarias por naturaleza y generalmente se equilibran entre sí (por ejemplo, cambios en los índices del dispositivo con fluctuaciones de temperatura en la habitación).
Los errores sistemáticos tienden a ser tendenciosos, ya que violan las reglas para seleccionar objetos en la muestra (por ejemplo, desviaciones en las mediciones al cambiar el ajuste del dispositivo de medición).
Un ejemplo Para evaluar el estado social de la población en la ciudad, se planea encuestar al 25% de las familias. Si la elección de cada cuarto apartamento se basa en su número, existe el peligro de seleccionar todos los apartamentos de un solo tipo (por ejemplo, apartamentos de una sola habitación), lo que proporcionará un error sistemático y distorsionará los resultados; elegir el mismo número de apartamento por lote es más preferible, ya que el error será aleatorio.
Los errores de representatividad son inherentes solo a la observación selectiva, no pueden evitarse y surgen como resultado de que la muestra no reproduce completamente lo general. Los valores de los indicadores obtenidos de la muestra difieren de aquellos de los mismos valores en la población general (u obtenidos con observación continua).
Error de muestreo
Los errores de muestreo son peculiares solo para observaciones selectivas. Cuanto más estos errores, más difiere la distribución empírica de la distribución teórica. Parámetros de distribución empírica
El error de muestreo promedio es la magnitud
es decir. para suficientemente grande
Donde
donde
donde
Sin embargo, el valor del error medio
Matemáticamente, esta declaración para el promedio se expresa como:
y para la fracción, la expresión (1) toma la forma:
donde
En consecuencia, la expresión (3) puede leerse de la siguiente manera: con probabilidad P = 0.683 (68.3%), puede afirmarse que la diferencia entre la muestra y el promedio general no excede un error promedio m (t = 1) , con una probabilidad P = 0.954 (95.4%) - que no excede el valor de dos errores medios m (t = 2), con probabilidad P = 0.997 (99.7%) - no excede tres valores m (t = 3). Por lo tanto, la probabilidad de que esta diferencia exceda tres veces la tasa de error promedio determina el nivel de error y no supera el 0.3% .
En la tabla. 9.3 fórmulas para calcular el límite de error de muestreo.
Tabla 9.3 Error de límite (D) de la muestra para el promedio y la fracción (p) para diferentes tipos de observación de la muestraDiseminación de resultados de muestra a la población general
El objetivo final de la observación selectiva es la caracterización de la población general. Para tamaños de muestra pequeños, las estimaciones empíricas de los parámetros (
El intervalo de confianza de cualquier parámetro θ de la población general es un rango aleatorio de valores de este parámetro, que con probabilidad cercana a 1 ( confiabilidad ) contiene el valor verdadero de este parámetro.
Limitar el error de muestreo Δ permite determinar los valores máximos de las características de la población y sus intervalos de confianza , que son iguales a:
El límite inferior del intervalo de confianza se obtiene al restar el error marginal de la media (fracción) de la muestra y el límite superior al sumarlo.
El intervalo de confianza para el promedio utiliza el error de muestreo máximo y para un nivel de confianza dado
Esto significa que con una probabilidad dada P , que se llama un nivel de confianza y está determinado únicamente por el valor de t , se puede argumentar que el verdadero valor de la media se encuentra en el rango de
Al calcular el intervalo de confianza para tres niveles de confianza estándar, P = 95%, P = 99% y P = 99,9%, el valor
La difusión de los resultados de la observación selectiva a la población general en los estudios socioeconómicos tiene sus propias peculiaridades, ya que requiere la integridad de la representatividad de todos sus tipos y grupos. La base para la posibilidad de tal dispersión es el cálculo del error relativo :
donde Δ % es el error de muestreo de límite relativo;
Hay dos métodos principales para distribuir la observación de la muestra a la población general: el recálculo directo y el método de coeficientes .
¡La esencia del recálculo directo consiste en multiplicar el valor medio de la muestra! \ Overline {x} por el volumen de la población general
Un ejemplo Deje que el número promedio de niños pequeños en la ciudad sea evaluado por un método selectivo y sea
El método de coeficientes es conveniente para usar en el caso de que se lleve a cabo una observación selectiva con el objetivo de aclarar los datos de observación continua.
Al hacerlo, usa la fórmula:
donde todas las variables son el número de población:
- con una enmienda a la subcuenta, - sin esta enmienda, - en puntos de control - en los mismos lugares según las medidas de control.
Tamaño de muestra requerido
Tabla 9.4. El tamaño de muestra requerido (n) para diferentes tipos de organización de muestreo Al planificar una encuesta por muestreo con un valor predeterminado del error de muestreo permitido, es necesario estimar correctamente el tamaño de muestra requerido. Este volumen se puede determinar sobre la base de un error permitido en la observación selectiva basada en una probabilidad dada
el tamaño de muestra n se determina directamente:
Esta fórmula muestra que con una disminución en el error de muestreo Δ , el tamaño de muestra requerido aumenta sustancialmente
Para un método específico de monitoreo, el tamaño de muestra requerido
Ejemplos prácticos de cálculo
Ejemplo 1. Cálculo del valor medio y el intervalo de confianza para una característica cuantitativa continua.
Para evaluar la velocidad de liquidación con los acreedores, el banco seleccionó aleatoriamente 10 documentos de pago. Sus valores fueron iguales (en días): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.
Es necesario determinar con una probabilidad P = 0.954 el error marginal Δ de la media de la muestra y los límites de confianza del tiempo de cálculo promedio.
La solución El valor promedio se calcula a partir de la fórmula en la Tabla. 9.1 para un conjunto de muestra
La dispersión se calcula a partir de la fórmula en la Tabla. 9.1.
Error cuadrático medio
El error promedio se calcula mediante la fórmula:
es decir. el valor medio es x ± m = 12.0 ± 2.3 días .
La confiabilidad del promedio fue
El error limitante se calcula a partir de la fórmula en la Tabla. 9.3 para la re-selección, ya que el tamaño de la población de la población
Por lo tanto, el valor promedio es igual a `x ± D =` x ± 2m = 12.0 ± 4.6, es decir su verdadero valor se encuentra en el rango de 7.4 a 16.6 días.
Usando la Tabla del Estudiante. La aplicación nos permite concluir que para n = 10 - 1 = 9 grados de libertad, el valor obtenido es confiable con un nivel de significancia de £ 0.001, i.е. el valor obtenido de la media difiere significativamente de 0.
Ejemplo 2. Estimación de probabilidad (la parte general) del río.
Con una encuesta de muestra mecánica de la situación social de 1,000 familias, se encontró que la proporción de familias de bajos ingresos era w = 0.3 (30%) (la muestra era del 2% , es decir, n / N = 0.02 ). Es necesario determinar el indicador p de familias de bajos ingresos en toda la región con un nivel de confianza de p = 0.997 .
La solución A partir de los valores presentados de la función Φ (t), encontramos el valor t = 3 para un nivel de confianza dado P = 0.997 (ver fórmula 3). El error limitante de la fracción w se determina a partir de la fórmula en la Tabla. 9.3 para selección no recurrente (el muestreo mecánico siempre es repetitivo):
El error de muestreo relativo limitante en % es:
La probabilidad (la participación general) de las familias de bajos ingresos en la región es p = w ± Δ w , y los límites de confianza p se calculan sobre la base de la doble desigualdad:
w - Δw ≤ p ≤ w - Δ w , es decir el verdadero valor de p se encuentra en el rango:
0,3 - 0,014
Por lo tanto, con una probabilidad de 0.997, se puede argumentar que la proporción de familias de bajos ingresos entre todas las familias de la región oscila entre 28.6% y 31.4%.
Ejemplo 3. Cálculo del valor medio y el intervalo de confianza para una característica discreta definida por una serie de intervalos.
En la tabla. 9.5. se estableció la distribución de pedidos para órdenes de fabricación de acuerdo con los términos de su implementación por parte de la empresa.
Tabla 9.5. Distribución de observaciones por el momento de la ocurrenciaFecha límite para solicitudes (meses) | Número de observaciones f i (frecuencia absoluta) | La frecuencia relativa p i (%) | El medio del intervalo (gradación) de la característica x i |
hasta 6 | 20 | 10 | 3 |
6-12 | 80 | 40 | Noveno |
12-36 | 60 | 30 | 24 |
36-60 | 20 | 10 | 48 |
más de 60 | 20 | 10 | 72 |
Total | 200 | 100% |
La solución El período promedio para cumplir con los pedidos se calcula mediante la fórmula:
El período promedio es:
La misma respuesta se obtiene si usamos los datos en pi de la penúltima columna de la Tabla. 9.5, usando la fórmula:
Tenga en cuenta que el medio del intervalo para la última gradación se encuentra mediante la adición artificial del intervalo de la gradación anterior igual a 60 - 36 = 24 meses.
La dispersión se calcula con la fórmula
donde x i es el medio de la serie de intervalos.
Por lo tanto, \ sigma = \ frac {20 ^ 2 + 14 ^ 2 + 1 + 25 ^ 2 + 49 ^ 2} {4}, y el error cuadrático medio
El error promedio se calcula mediante la fórmula
El error limitante se calcula a partir de la fórmula en la Tabla. 9.3 para la re-selección, ya que el tamaño de la población de la población
Por lo tanto, el valor promedio es:
es decir. su verdadero valor se encuentra en el rango de 0 a 50 meses.
Ejemplo 4. Para determinar la velocidad de los asentamientos con acreedores N = 500 empresas de una corporación en un banco comercial, es necesario realizar un muestreo aleatorio por muestreo aleatorio. Determine el tamaño de muestra requerido n para que, con una probabilidad P = 0.954, el error del valor de muestra promedio no exceda de 3 días, si las estimaciones de prueba mostraron que la desviación estándar s fue de 10 días.
La solución Para determinar el número de estudios necesarios, usamos la fórmula para la selección recurrente de la Tabla. 9.4:
En él, el valor de t se determina a partir de la Tabla del Estudiante para el nivel de confianza P = 0.954. Es igual a 2. El valor cuadrado medio s = 10, el tamaño de la población N = 500 y el error límite del valor promedio Δ x = 3. Al sustituir estos valores en la fórmula, obtenemos:
es decir. Basta seleccionar de 41 empresas para estimar el parámetro requerido: la velocidad de los acuerdos con los acreedores.