ЛЕКЦИЯ 2

ЛЕКЦИЯ 13

ТЕМА: СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПАРАМЕТРОВ ВЫБОРКИ

1. Точечные оценки параметров распределения.

1.1. Генеральная средняя.

1.2. Выборочная средняя.

1.3. Генеральная дисперсия.

1.4. Выборочная дисперсия.

1.5. Исправленная дисперсия.

2. Интервальные оценки параметров распределения.

2.1. Интервальные оценки параметров нормального распределения.

2.1.1. Доверительный интервал для оценки математического ожидания при известном s.

2.1.2. Доверительный интервал для оценки математического ожидания при неизвестном s.

2.1.3. Доверительный интервал для оценки дисперсии и среднего квадратического отклонения.

2.2. Интервальная оценка вероятности биноминального распределения по относительной частоте.

1. Точечные оценки параметров распределения.

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.

Поясним каждое из понятий.

Несмещенной называют статистическую оценку Q^*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.

M(Q^*) = Q.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при п®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п®¥ стремится к нулю, то такая оценка оказывается и состоятельной.

Рассмотрим точечные оценки параметров распределения, т.е.

оценки, которые определяются одним числом Q^* =f( x₁, x₂,…,x_n), где x₁, x₂,…,x_n- выборка.

1.1.Генеральная средняя.

Пусть изучается генеральная совокупность относительно количественного признака Х.

Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.

Если все значения признака различны, то

Если значения признака имеют частоты N₁, N₂, …, N_k, где N₁ +N₂+…+N_k= N, то

1.2.Выборочная средняя.

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если все значения признака выборки различны, то

если же все значения имеют частоты n₁, n₂,…,n_k, то

Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней.

Замечание: Если выборка представлена интервальным вариационным рядом, то за x_i принимают середины частичных интервалов.

1.3. Генеральная дисперсия.

Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику — генеральную дисперсию.

Генеральной дисперсией D_г называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .

Если все значения признака генеральной совокупности объема N различны, то

Если же значения признака имеют соответственно частоты N₁, N₂, …, N_k, где N₁ +N₂+…+N_k= N, то

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением.

Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:

1.4.Выборочная дисперсия.

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения , вводят сводную характеристику- выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения признака выборки различны, то

если же все значения имеют частоты n₁, n₂,…,n_k, то

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением.

Выборочным средним квадратическим отклоненим называют квадратный корень из выборочной дисперсии:

Вычисление дисперсии- выборочной или генеральной, можно упростить, используя формулу:

Замечание: если выборка представлена интервальным вариационным рядом, то за x_i принимают середины частичных интервалов.

1.5.Исправленная дисперсия.

Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

Для исправления выборочной дисперсии достаточно умножить ее на дробь

получим исправленную дисперсию S². Исправленная дисперсия является несмещенной оценкой.

В качестве оценки генеральной дисперсии принимают исправленную дисперсию.

Для оценки среднего квадратического генеральной совокупности используют исправленное среднее квадратическое отклонение

Замечание: формулы для вычисления выборочной дисперсии и исправленной дисперсии отличаются только знаменателями. При достаточно больших n выборочная и исправленная дисперсии мало отличаются, поэтому на практике исправленной дисперсией пользуются, если n<30.

Вычислим выборочные характеристики по выборкам, рассмотренным в лекции 12 пункт 3.1.(дискретный вариационный ряд и пункт 3.2.(интервальный вариационный ряд).

Пример 1. Для дискретного вариационного ряда:

Среднее выборочное

Выборочная дисперсия

Выборочное среднее квадратическое отклонение

Исправленная дисперсия

Пример2. Для интервального вариационного ряда:

За х_i примем середины частичных интервалов:

_Д_{ля
вычисления выборочной дисперсии
воспользуемся формулой}

Выборочное среднее квадратическое отклонение :

2. Интервальные оценки параметров распределения.

Интервальной называют оценку, которая определяется двумя числами—концами интервала. Интервальные оценки позволяют установить точность и надежность оценок .

Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q. Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если d>0 и |Q- Q*| <d , то чем меньше d , тем оценка точнее.

Таким образом, положительное число d характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка Q* удовлетворяет неравенству |Q- Q*| <d; можно лишь говорить о вероятности g, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки называют вероятность g , с которой осуществляется неравенство |Q—Q* | <d .

Обычно надежность оценки задается наперед, причем в качестве g берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что, |Q- Q*| <d равна g:

P(|Q- Q*| <d)= g.

Заменив неравенство равносильным ему двойным неравенством получим:

Р [Q* —d< Q < Q* +d] = g

Это соотношение следует понимать так: вероятность того, что интервал Q* - d< Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна g.

Интервал (Q* - d Q* +d) называется доверительным интервалом , который покрывает неизвестный параметр с надежностью g.

2.1.Интервальные оценки параметров нормального распределения.

2.1.1. Доверительный интервал для оценки математического ожидания при известном s.

Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения -s. Требуется оценить математическое ожидание а по выборочной средней. Найдем доверительный интервал, покрывающий а с надежностью g. Выборочную среднюю будем рассматривать как случайную величину ( она изменяется от выборки к выборке), выборочные значения признака- как одинаково распределенные независимые СВ с математическим ожиданием каждой а и средним квадратическим отклонением s. Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами

Потребуем, чтобы выполнялось равенство

Заменив Х и s, получим

получим

Задача решена. Число t находят по таблице функции Лапласа Ф(х).

Пример1. СВХ распределена нормально и s =3. Найти доверительный интервал для оценки математического ожидания по выборочным средним, если n = 36 и задана надежность g =0,95.

Из соотношения 2Ф(t)= 0,95 , откуда Ф(t) = 0,475 по таблице найдем t : t =1,96. Точность оценки

Доверительный интервал

Пример2. Найти минимальный объем выборки, который обеспечивает заданную точность d =0,3 и надежность g = 0,975, если СВХ распределена нормально и s =1,2.

Из равенства

выразим n:

подставим значения и получим минимльный объем выборки n ~ 81.

2.1.2. Доверительный интервал для оценки математического ожидания при неизвестном s.

Т.к. мы не знакомы с законами распределения СВ, которые используются при выводе формулы, то примем ее без доказательства.

В качестве неизвестного параметра s используют исправленную дисперсию s² . Заменяя s на s, t на величину t_g. Значение этой величины зависит от надежности g и объема выборки n и определяется по " Таблице значений t_g." Итак :

и доверительный интервал имеет вид

Пример1. Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если объем выборки n =16, среднее выборочное и исправленная дисперсия соответственно равны 20,2 и 0,8.

По таблице приложения найдем t_gпо заданной надежности g =0,95 и n= 16: t_g=2,13. Подставим в формулу s =0,8 и t_g=2,13 , вычислим границы доверительного интевала:

откуда получим доверительный интервал (19,774; 20,626)

Смысл полученного результата: если взять 100 различных выборок, то в 95 из них математическое ожидание будет находится в пределах данного интервала, а в 5 из них- нет.

Пример2. Измеряют диаметры 25 корпусов электродвигателей. Получены выборочные характеристики

Необходимо найти вероятность (надежность) того, что

- является доверительным интервалом оценки математического ожидания при нормальном распределении.

Из условия задачи найдем точность d, составив и решив систему:

Откуда d =10. Из равенства

выразим

откуда t_g=3,125. По таблице для найденного t_g и n= 25 находим g =0,99.

2.1.3. Доверительный интервал для оценки дисперсии и среднего квадратического отклонения.

Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и s с заданной надежностью g.

Потребуем выполнения соотношения

Раскроем модуль и получим двойное неравенство:

Преобразуем:

Обозначим d/s = q (величина q находится по "Таблице значений q"и зависит от надежности и объема выборки), тогда доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид:

Замечание : Так как s >0, то если q >1 , левая граница интервала равна 0:

0< s < s ( 1 + q ).

Пример1. По выборке объема n = 25 найдено "исправленное" среднее квадратическое отклонение s = 0,8. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,95.

По таблице приложения по данным : g = 0,95; n =25 , находим q = 0,32.

Искомый доверительный интервал 0,8(1- 0,32)< s < 0,8(1+ 0,32) или 0,544<s <0,056.

Пример2. По выборке объема n = 10 найдено s = 0,16. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение с надежностью 0,999.

q( n=10, g =0,999) = 1,8>0.

Искомый доверительный интервал 0< s <0,16(1+1,8) или 0< s <0,448.

Так как дисперсия есть квадрат среднего квадратического отклонения, то доверительный интервал, покрывающий генеральную дисперсию с заданной надежностью g, имеет вид:

2.2. Интервальная оценка вероятности биноминального распределения по относительной частоте.

Найдем доверительный интервал для оценки вероятности по относительной частоте, используя формулу:

Если n достаточно велико и р не очень близка к нулю и единице, то можно считать, что относительная частота распределена приближенно по нормальному закону, причем М(W)= р. Заменив Х на относительную частоту , математическое ожидание - на вероятность, получим равенство:

Приступим к построению доверительного интервала (р₁, р₂), который с надежностью g покрывает оцениваемый параметр р Потребуем, чтобы с надежностью g выполнялось соотношение указанное выше равенство:

Заменив

получим:

Таким образом, с надежностью g выполняется неравенство (чтобы получить рабочую формулу, случайную величину W заменим неслучайной наблюдаемой относительной частотой w и подставим 1- р вместо q):

Учитывая, что вероятность р неизвестна, решим это неравенство относительно р. Допустим, что w > р. Тогда

Обе части неравенства положительны; возведя их в квадрат, получим равносильное квадратное неравенство относительно р:

Дискриминант трехчлена положительный, поэтому корни действительные и различные:

меньший корень

больший корень:

Замечание1: При больших значениях n , пренебрегая слагаемыми

,и

учитывая

получим приближенные формулы для границ доверительного интервала :

Пример1. Производят независимые испытания с одинаковой и неизвестной вероятностью появления события А в каждом испытании. Найти доверительный интервал для оценки вероятности с надежностью 0,95, если в 80 испытаниях событие А появилось 16 раз.

По условию n =80, m=16, g =0,95. Относительная частота

Из соотношения Ф(t)=0,95/2 = 0,475 по таблице находим t = 1,96. Т.к. n<100, то используем точные формулы, получим : р₁= 0,128, р₂= 0,299.

Замечание 2: Если n мало, то используем для определения концов доверительного интервала вероятности события при биноминальном распределении "Таблицу доверительных границ р₁ и р₂". Значения р₁ и р₂ находят в зависимости от n и m.

Пример. В пяти независимых испытаниях событие А произошло 3 раза. Найти с надежностью 0,95 интервальную оценку для вероятности события А в единичном испытании.

По условию задачи n=5, m=3. Имеет место схема повторных испытаний. Используя таблицу, находим доверительный интервал : 0,147<p<0,947.

Контрольные вопросы

1. Определение статистической оценки неизвестного параметра.

2. Какая оценка называется точечной?

3. Каким требованиям должны удовлетворять статистические оценки?

4. Сформулировать определения генеральной средней и генеральной дисперсии.

5. Записать выражения для вычисления выборочной средней, выборочной дисперсии и исправленной дисперсии. Какая из этих оценок не является несмещенной?

6. Методики вычисления границ доверительного интервала для оценки математического ожидания нормально распределенной СВ при известном и неизвестном s.

7. Методика вычисления границ доверительного интервала для оценки среднего квадратического отклонения нормально распределенной СВ.

8. Доверительный интервал вероятности биноминального распределения по относительной частоте при больших n , при n<100.