Población general y método de muestreo

Población estadística

El agregado estadístico es un conjunto de unidades que tienen un carácter masivo, tipicidad, homogeneidad cualitativa y la presencia de una variación.

El agregado estadístico consiste en objetos materialmente existentes (trabajadores, empresas, países, regiones), es objeto de investigación estadística .

La unidad del agregado es cada unidad específica del agregado estadístico.

Uno y el mismo agregado estadístico puede ser homogéneo por una característica y es heterogéneo de otra manera.

Homogeneidad cualitativa : la similitud de todas las unidades del agregado sobre alguna base y la falta de uniformidad en todas las demás.

En el agregado estadístico, las diferencias de una unidad del agregado con respecto a la otra son a menudo de naturaleza cuantitativa. Los cambios cuantitativos en los valores del signo de diferentes unidades del agregado se llaman variaciones.

La variación del rasgo es el cambio cuantitativo en el rasgo (para una característica cuantitativa) en la transición de una unidad del agregado a otro.

Una característica es una propiedad, un rasgo característico u otra característica de unidades, objetos y fenómenos que se pueden observar o medir. Los signos se dividen en cuantitativos y cualitativos. La variedad y variabilidad de la magnitud de una característica en unidades individuales de una población se llama variación .

Los signos atributivos (cualitativos) no pueden expresarse numéricamente (composición de la población por sexo). Las características cuantitativas tienen una expresión numérica (composición de la población por edad).

Un indicador es una característica general cuantitativa cualitativa de una propiedad de unidades o un agregado en objetivos en condiciones específicas de tiempo y lugar.

El sistema de indicadores es un conjunto de indicadores que reflejan integralmente el fenómeno en estudio.

Por ejemplo, el salario se estudia:
  • Firmar - pagar
  • Población estadística - todos los empleados
  • Unidad de unidad: cada empleado
  • Homogeneidad cualitativa - salario devengado
  • Variación de la característica - una serie de números

Población general y muestra de ella

La base de la investigación estadística es el conjunto de datos obtenidos como resultado de la medición de una o varias características. Conjunto de objetos realmente observados, representados estadísticamente por una serie de observaciones variable aleatoria , es una muestra , y hipotéticamente existente (preconcebido) - la población general . La población total puede ser finita (el número de observaciones es N = const ) o infinita ( N = ∞ ), y una muestra de la población general es siempre el resultado de una serie limitada observaciones. Numero de observaciones , formando una muestra, se llama tamaño de muestra . Si el tamaño de muestra es lo suficientemente grande ( n → ∞ ), la muestra se considera grande ; de lo contrario, se denomina muestra de un volumen limitado . La muestra se considera pequeña si, al medir una variable aleatoria unidimensional el tamaño de muestra no excede de 30 ( n <= 30 ), y cuando se miden varias ( k ) características simultáneamente en un espacio multidimensional, la relación de n a k no supera 10 (n / k <10) . La muestra forma una serie variacional si sus términos son estadísticas ordinales , es decir, los valores de muestra de la variable aleatoria X están ordenados en orden ascendente (clasificados), los valores de la misma característica se llaman variantes .

Un ejemplo Casi el mismo conjunto de objetos seleccionados aleatoriamente -los bancos comerciales de un distrito administrativo de Moscú- pueden considerarse como una muestra de la totalidad general de todos los bancos comerciales de este distrito y como una muestra de la población general de todos los bancos comerciales de Moscú, así como una muestra de bancos comerciales del país y etc.

Métodos básicos de muestreo

La confiabilidad de las conclusiones estadísticas y la interpretación significativa de los resultados depende de la representatividad de la muestra, es decir Completitud y adecuación de la representación de las propiedades de la población general, en relación a la cual esta muestra puede considerarse representativa. El estudio de las propiedades estadísticas de la población puede organizarse de dos maneras: a través de la observación continua y no continua . Una observación continua proporciona un examen de todas las unidades de la población estudiada, y la observación no continua (selectiva) es solo una parte de ella.

Hay cinco formas principales de organizar la observación selectiva:

1. selección aleatoria simple , en la cual los objetos se extraen accidentalmente de la población general objetos (por ejemplo, usando una tabla o un generador de números aleatorios), con cada una de las muestras posibles con la misma probabilidad. Tales muestras se llaman auto-aleatorias ;

2. La selección simple mediante un procedimiento regular se lleva a cabo con la ayuda de un componente mecánico (por ejemplo, fecha, día de la semana, número de apartamento, letra del alfabeto, etc.) y las muestras obtenidas de esta manera se llaman mecánicas ;

3. El muestreo estratificado consiste en el hecho de que la totalidad del volumen se subdivide en subconjuntos o estratos (estratos) de volumen para que . Los estratos son objetos homogéneos en términos de características estadísticas (por ejemplo, la población se divide en estratos según los grupos de edad o afiliación social, las empresas por industria). En este caso, las muestras se llaman estratificadas (de lo contrario, estratificadas, típicas, zonificadas );

4. Los métodos de selección en serie se usan para formar muestras en serie o anidadas . Son convenientes si es necesario inspeccionar un "bloque" o una serie de objetos a la vez (por ejemplo, un lote de productos, productos de una determinada serie o población en la división territorial-administrativa del país). La selección de series puede llevarse a cabo de forma puramente aleatoria o mecánica. En este caso, se lleva a cabo una encuesta continua de un cierto lote de bienes, o una unidad territorial completa (una vivienda o un bloque);

5. La selección combinada (paso a paso) puede combinar varios métodos de selección a la vez (por ejemplo, estratificado y aleatorio o aleatorio y mecánico); tal muestra se llama combinada .

Tipos de selección

En apariencia , se distinguen la selección individual, grupal y combinada. Con la selección individual , se seleccionan unidades selectivas de la población general en la muestra, en el caso de la selección grupal , grupos (unidades) de unidades cualitativamente homogéneos, y la selección combinada implica una combinación de la primera y la segunda especie.

Por el método de selección, se distingue un muestreo repetitivo y repetitivo .

La selección no está cuestionada , en la cual la unidad en la muestra no regresa a la población original y no participa en la selección posterior; mientras que el número de unidades de la población general N se reduce en el proceso de selección. Tras la selección, la unidad muestreada después del registro se devuelve a la población general y, por lo tanto, conserva una oportunidad igual junto con otras unidades para ser utilizadas en el procedimiento de selección posterior; mientras que el número de unidades de la población general de N permanece sin cambios (el método se usa raramente en estudios socioeconómicos). Sin embargo, para N grande (N → ∞), las fórmulas para la selección sin repetición son similares a las de la selección repetida , y las últimas ( N = const ) se usan con mayor frecuencia.

Principales características de los parámetros de la población general y muestra

Las conclusiones estadísticas de este estudio se basan en la distribución de una variable aleatoria , los valores observados (x 1 , x 2 , ..., x n ) se llaman realizaciones de la variable aleatoria X (n es el tamaño de la muestra). La distribución de una variable aleatoria en la población general tiene un carácter ideal teórico, y su muestra análoga es una distribución empírica . Algunas distribuciones teóricas se dan analíticamente, es decir sus parámetros determinan el valor de la función de distribución en cada punto en el espacio de valores posibles de la variable aleatoria . Para el muestreo, la función de distribución es difícil de determinar y, a veces, imposible, por lo que los parámetros se evalúan mediante datos empíricos y luego se sustituyen por una expresión analítica que describe la distribución teórica. En este caso, la suposición (o hipótesis ) sobre el tipo de distribución puede ser estadísticamente correcta o errónea. Pero, en cualquier caso, la distribución empírica reconstruida a partir de la muestra solo caracteriza de manera aproximada la verdadera distribución. Los parámetros más importantes de las distribuciones son la expectativa matemática y varianza .

Por su naturaleza, las distribuciones son continuas y discretas . La distribución continua más conocida es normal . Análogos selectivos de parámetros y porque lo son: el valor medio y dispersión empírica . Entre los discretos en la investigación socioeconómica, la alternativa más común es la distribución (dicotómica) . El parámetro de expectativa matemática Esta distribución expresa el valor relativo (o proporción ) de las unidades de la población que poseen el rasgo bajo estudio (se denota por la letra ); la proporción de la población que no tiene esta característica se denota con la letra q (q = 1 - p) . La dispersión es la misma distribución alternativa también tiene un análogo empírico .

Dependiendo del tipo de distribución y del método de selección de unidades de la población, las características de los parámetros de distribución se calculan de forma diferente. Los principales para distribuciones teóricas y empíricas se dan en la Tabla. 9.1.

La fracción de muestra k n es la relación entre el número de unidades de la muestra y el número de unidades de la población general:

k n = n / N.

La fracción selectiva w es la relación de las unidades que poseen la característica estudiada x con el tamaño de muestra n :

w = n n / n .

Un ejemplo En el envío de mercancías que contienen 1000 unidades, con una muestra del 5% , el tamaño de muestra k n en el valor absoluto es de 50 unidades. (n = N * 0.05); Si, en esta muestra, se encuentran 2 elementos defectuosos, la fracción selectiva de rechazo w es 0.04 (w = 2/50 = 0.04 o 4%).

Como el conjunto de muestreo es diferente del general, se producen errores de muestreo .

Tabla 9.1 Parámetros básicos de las poblaciones generales y de muestra

Errores de muestreo

Con cualquier observación estadística (continua y selectiva), pueden ocurrir errores de dos tipos: registro y representatividad. Los errores de registro pueden ser aleatorios y sistemáticos . Los errores aleatorios se componen de muchas causas diferentes no controladas, son involuntarias por naturaleza y generalmente se equilibran entre sí (por ejemplo, cambios en los índices del dispositivo con fluctuaciones de temperatura en la habitación).

Los errores sistemáticos tienden a ser tendenciosos, ya que violan las reglas para seleccionar objetos en la muestra (por ejemplo, desviaciones en las mediciones al cambiar el ajuste del dispositivo de medición).

Un ejemplo Para evaluar el estado social de la población en la ciudad, se planea encuestar al 25% de las familias. Si la elección de cada cuarto apartamento se basa en su número, existe el peligro de seleccionar todos los apartamentos de un solo tipo (por ejemplo, apartamentos de una sola habitación), lo que proporcionará un error sistemático y distorsionará los resultados; elegir el mismo número de apartamento por lote es más preferible, ya que el error será aleatorio.

Los errores de representatividad son inherentes solo a la observación selectiva, no pueden evitarse y surgen como resultado de que la muestra no reproduce completamente lo general. Los valores de los indicadores obtenidos de la muestra difieren de aquellos de los mismos valores en la población general (u obtenidos con observación continua).

Error de muestreo hay una diferencia entre el valor de un parámetro en la población general y su valor selectivo. Para el valor promedio de la característica cuantitativa, es igual a: , y para compartir (una característica alternativa) - .

Los errores de muestreo son peculiares solo para observaciones selectivas. Cuanto más estos errores, más difiere la distribución empírica de la distribución teórica. Parámetros de distribución empírica y son variables aleatorias, por lo tanto, los errores de muestreo también son variables aleatorias, pueden tomar diferentes valores para diferentes muestras y, por lo tanto, es común calcular el error promedio .

El error de muestreo promedio es la magnitud , expresando la desviación cuadrática media de la media de la muestra desde la expectativa matemática. Este valor, sujeto al principio de selección aleatoria, depende principalmente del tamaño de la muestra y en el grado de variación del signo: cuanto más y cuanto menor sea la variación de la característica (por lo tanto, el valor ), cuanto menor sea el valor del error de muestreo promedio . La relación entre las varianzas de las poblaciones generales y de muestra se expresa mediante la fórmula:

es decir. para suficientemente grande podemos suponer que . El error de muestreo promedio muestra las posibles desviaciones del parámetro de muestra del parámetro general. En la tabla. 9.2 son expresiones para calcular el error medio Muestreo con diferentes métodos de organización de la observación.

Tabla 9.2 Error promedio (m) de la media y la proporción de la muestra para diferentes tipos de muestra

Donde - el promedio de las variaciones de muestra dentro del grupo para una característica continua;

- el promedio de las variaciones de acciones dentro del grupo;

- número de series seleccionadas, - el número total de series;

,

donde - medio serie;

- el promedio total de la muestra completa para una característica continua;

,

donde - la parte del rasgo en serie;

- la participación total del rasgo en toda la muestra.

Sin embargo, el valor del error medio solo se puede juzgar con una probabilidad definida P (P ≤ 1). Lyapunov A.M. demostró que la distribución de la muestra significa , y en consecuencia, y sus desviaciones del promedio general, para un número suficientemente grande aproximadamente se ajusta a la ley de distribución normal, siempre que la población general tenga una media finita y una varianza limitada.

Matemáticamente, esta declaración para el promedio se expresa como:

y para la fracción, la expresión (1) toma la forma:

donde - es el error de muestreo máximo , que es un múltiplo del error de muestreo medio y el coeficiente de multiplicidad - hay un criterio de estudiante ("coeficiente de confianza"), propuesto por los EE. UU. Gossett (seudónimo "Estudiante"); significados para diferentes tamaños de muestra se almacenan en una mesa especial.

Los valores de la función Φ (t) son iguales para ciertos valores de t:

En consecuencia, la expresión (3) puede leerse de la siguiente manera: con probabilidad P = 0.683 (68.3%), puede afirmarse que la diferencia entre la muestra y el promedio general no excede un error promedio m (t = 1) , con una probabilidad P = 0.954 (95.4%) - que no excede el valor de dos errores medios m (t = 2), con probabilidad P = 0.997 (99.7%) - no excede tres valores m (t = 3). Por lo tanto, la probabilidad de que esta diferencia exceda tres veces la tasa de error promedio determina el nivel de error y no supera el 0.3% .

En la tabla. 9.3 fórmulas para calcular el límite de error de muestreo.

Tabla 9.3 Error de límite (D) de la muestra para el promedio y la fracción (p) para diferentes tipos de observación de la muestra

Diseminación de resultados de muestra a la población general

El objetivo final de la observación selectiva es la caracterización de la población general. Para tamaños de muestra pequeños, las estimaciones empíricas de los parámetros ( y ) pueden desviarse significativamente de sus verdaderos valores ( y ) Por lo tanto, se hace necesario establecer límites dentro de los cuales, para valores selectivos de los parámetros ( y ) son valores verdaderos ( y )

El intervalo de confianza de cualquier parámetro θ de la población general es un rango aleatorio de valores de este parámetro, que con probabilidad cercana a 1 ( confiabilidad ) contiene el valor verdadero de este parámetro.

Limitar el error de muestreo Δ permite determinar los valores máximos de las características de la población y sus intervalos de confianza , que son iguales a:

El límite inferior del intervalo de confianza se obtiene al restar el error marginal de la media (fracción) de la muestra y el límite superior al sumarlo.

El intervalo de confianza para el promedio utiliza el error de muestreo máximo y para un nivel de confianza dado está determinado por la fórmula:

Esto significa que con una probabilidad dada P , que se llama un nivel de confianza y está determinado únicamente por el valor de t , se puede argumentar que el verdadero valor de la media se encuentra en el rango de y el verdadero valor de la acción - desde

Al calcular el intervalo de confianza para tres niveles de confianza estándar, P = 95%, P = 99% y P = 99,9%, el valor se selecciona de acuerdo con la tabla del Estudiante . Aplicaciones según el número de grados de libertad . Si el tamaño de la muestra es suficientemente grande, los valores de t correspondientes a estas probabilidades son iguales a 1.96, 2.58 y 3.29 . Por lo tanto, el error de muestreo máximo nos permite determinar los valores máximos de las características de la población y sus intervalos de confianza:

La difusión de los resultados de la observación selectiva a la población general en los estudios socioeconómicos tiene sus propias peculiaridades, ya que requiere la integridad de la representatividad de todos sus tipos y grupos. La base para la posibilidad de tal dispersión es el cálculo del error relativo :

donde Δ % es el error de muestreo de límite relativo; , .

Hay dos métodos principales para distribuir la observación de la muestra a la población general: el recálculo directo y el método de coeficientes .

¡La esencia del recálculo directo consiste en multiplicar el valor medio de la muestra! \ Overline {x} por el volumen de la población general .

Un ejemplo Deje que el número promedio de niños pequeños en la ciudad sea evaluado por un método selectivo y sea derechos. Si hay 1000 familias jóvenes en la ciudad, entonces la cantidad de plazas necesarias en las guarderías municipales se obtiene multiplicando este promedio por el número de la población general N = 1000, i.е. serán 1200 asientos.

El método de coeficientes es conveniente para usar en el caso de que se lleve a cabo una observación selectiva con el objetivo de aclarar los datos de observación continua.

Al hacerlo, usa la fórmula:

,

donde todas las variables son el número de población:

  • - con una enmienda a la subcuenta,
  • - sin esta enmienda,
  • - en puntos de control
  • - en los mismos lugares según las medidas de control.

Tamaño de muestra requerido

Tabla 9.4. El tamaño de muestra requerido (n) para diferentes tipos de organización de muestreo

Al planificar una encuesta por muestreo con un valor predeterminado del error de muestreo permitido, es necesario estimar correctamente el tamaño de muestra requerido. Este volumen se puede determinar sobre la base de un error permitido en la observación selectiva basada en una probabilidad dada , que garantiza el valor permitido del nivel de error (teniendo en cuenta el método de organización de la observación). Las fórmulas para determinar el tamaño de muestra necesario n pueden obtenerse directamente de las fórmulas de error marginal de muestreo. Entonces, de la expresión para el error marginal:

el tamaño de muestra n se determina directamente:

Esta fórmula muestra que con una disminución en el error de muestreo Δ , el tamaño de muestra requerido aumenta sustancialmente , que es proporcional a la varianza y el cuadrado de la prueba del Estudiante .

Para un método específico de monitoreo, el tamaño de muestra requerido se calcula de acuerdo con las fórmulas dadas en la Tabla. 9.4.

Ejemplos prácticos de cálculo

Ejemplo 1. Cálculo del valor medio y el intervalo de confianza para una característica cuantitativa continua.

Para evaluar la velocidad de liquidación con los acreedores, el banco seleccionó aleatoriamente 10 documentos de pago. Sus valores fueron iguales (en días): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Es necesario determinar con una probabilidad P = 0.954 el error marginal Δ de la media de la muestra y los límites de confianza del tiempo de cálculo promedio.

La solución El valor promedio se calcula a partir de la fórmula en la Tabla. 9.1 para un conjunto de muestra

La dispersión se calcula a partir de la fórmula en la Tabla. 9.1.

Error cuadrático medio día.

El error promedio se calcula mediante la fórmula:

es decir. el valor medio es x ± m = 12.0 ± 2.3 días .

La confiabilidad del promedio fue

El error limitante se calcula a partir de la fórmula en la Tabla. 9.3 para la re-selección, ya que el tamaño de la población de la población es desconocido, y para P = 0.954 el nivel de confianza.

Por lo tanto, el valor promedio es igual a `x ± D =` x ± 2m = 12.0 ± 4.6, es decir su verdadero valor se encuentra en el rango de 7.4 a 16.6 días.

Usando la Tabla del Estudiante. La aplicación nos permite concluir que para n = 10 - 1 = 9 grados de libertad, el valor obtenido es confiable con un nivel de significancia de £ 0.001, i.е. el valor obtenido de la media difiere significativamente de 0.

Ejemplo 2. Estimación de probabilidad (la parte general) del río.

Con una encuesta de muestra mecánica de la situación social de 1,000 familias, se encontró que la proporción de familias de bajos ingresos era w = 0.3 (30%) (la muestra era del 2% , es decir, n / N = 0.02 ). Es necesario determinar el indicador p de familias de bajos ingresos en toda la región con un nivel de confianza de p = 0.997 .

La solución A partir de los valores presentados de la función Φ (t), encontramos el valor t = 3 para un nivel de confianza dado P = 0.997 (ver fórmula 3). El error limitante de la fracción w se determina a partir de la fórmula en la Tabla. 9.3 para selección no recurrente (el muestreo mecánico siempre es repetitivo):

El error de muestreo relativo limitante en % es:

La probabilidad (la participación general) de las familias de bajos ingresos en la región es p = w ± Δ w , y los límites de confianza p se calculan sobre la base de la doble desigualdad:

w - Δw ≤ p ≤ w - Δ w , es decir el verdadero valor de p se encuentra en el rango:

0,3 - 0,014

Por lo tanto, con una probabilidad de 0.997, se puede argumentar que la proporción de familias de bajos ingresos entre todas las familias de la región oscila entre 28.6% y 31.4%.

Ejemplo 3. Cálculo del valor medio y el intervalo de confianza para una característica discreta definida por una serie de intervalos.

En la tabla. 9.5. se estableció la distribución de pedidos para órdenes de fabricación de acuerdo con los términos de su implementación por parte de la empresa.

Tabla 9.5. Distribución de observaciones por el momento de la ocurrencia

Fecha límite para solicitudes (meses)

Número de observaciones f i (frecuencia absoluta)

La frecuencia relativa p i (%)

El medio del intervalo (gradación) de la característica x i

hasta 6

20

10

3

6-12

80

40

Noveno

12-36

60

30

24

36-60

20

10

48

más de 60

20

10

72

Total

200

100%

La solución El período promedio para cumplir con los pedidos se calcula mediante la fórmula:

El período promedio es:

= (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 = 23.1 meses.

La misma respuesta se obtiene si usamos los datos en pi de la penúltima columna de la Tabla. 9.5, usando la fórmula:

Tenga en cuenta que el medio del intervalo para la última gradación se encuentra mediante la adición artificial del intervalo de la gradación anterior igual a 60 - 36 = 24 meses.

La dispersión se calcula con la fórmula

donde x i es el medio de la serie de intervalos.

Por lo tanto, \ sigma = \ frac {20 ^ 2 + 14 ^ 2 + 1 + 25 ^ 2 + 49 ^ 2} {4}, y el error cuadrático medio .

El error promedio se calcula mediante la fórmula meses, es decir el valor promedio es igual a \ overline {x} ± m = 23,1 ± 13,4.

El error limitante se calcula a partir de la fórmula en la Tabla. 9.3 para la re-selección, ya que el tamaño de la población de la población desconocido, para un nivel de confianza de .954:

Por lo tanto, el valor promedio es:

es decir. su verdadero valor se encuentra en el rango de 0 a 50 meses.

Ejemplo 4. Para determinar la velocidad de los asentamientos con acreedores N = 500 empresas de una corporación en un banco comercial, es necesario realizar un muestreo aleatorio por muestreo aleatorio. Determine el tamaño de muestra requerido n para que, con una probabilidad P = 0.954, el error del valor de muestra promedio no exceda de 3 días, si las estimaciones de prueba mostraron que la desviación estándar s fue de 10 días.

La solución Para determinar el número de estudios necesarios, usamos la fórmula para la selección recurrente de la Tabla. 9.4:

En él, el valor de t se determina a partir de la Tabla del Estudiante para el nivel de confianza P = 0.954. Es igual a 2. El valor cuadrado medio s = 10, el tamaño de la población N = 500 y el error límite del valor promedio Δ x = 3. Al sustituir estos valores en la fórmula, obtenemos:

es decir. Basta seleccionar de 41 empresas para estimar el parámetro requerido: la velocidad de los acuerdos con los acreedores.

You May Also Like

New Articles

Reader's Choice

© 2023 pomilm.com