ЛЕКЦИЯ 12

 

ТЕМА: ВЫБОРОЧНЫЙ МЕТОД.

1.      Задачи математической статистики.

2.      Способы сбора статистических данных.

2.1. Генеральная и выборочная совокупности.

2.2. Способы выборки.

3.      Способы группировки статистических данных. Вариационные ряды.

3.1. Дискретный вариационный ряд.

3.2. Интервальный вариационный ряд.

4.      Выборочные аналоги интегральной и дифференциальной функций распределения.

4.1. Эмпирическая функция распределения.

4.2. Выборочная дифференциальная функция.

 

1.      Задачи математической статистики.

Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.

Первая задача математической статистикиуказать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики—разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:

а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин и др.;

б) проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.

Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.  

 

2.      Способы сбора статистических данных.

2.1. Генеральная и выборочная совокупности.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качествен­ного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным—контролируемый размер детали.

Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Различают генеральную и выборочную совокупности:

Генеральной совокупностью называют совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений случайной величины, или совокупность результатов всех мыслимых наблюдений,  проводимых в неизменных условиях над одной из случайных величин, связанных с данным видом объектов.

Замечание: Часто генеральная совокупность содержит конечное число объектов. Однако если это число достаточно велико, то иногда в целях упрощения вычислений допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.

Выборочной совокупностью называют часть отобранных объектов из генеральной совокупности.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки п =100.

Число объектов генеральной совокупности N значительно превосходит объем выборки n .  

2.2. Способы выборки.

При составлении выборки можно поступать двумя способами: после того как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В соответствии со сказанным выборки подразделяют на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности. Это требование коротко формулируют так: выборка должна быть репрезентативной (представительной) .

В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, если все объекты имеют одинаковую вероятность попасть в выборку.

 

На практике применяются различные способы отбора. Принципиально эти способы можно подразделить на два вида:

1. Отбор, не требующий расчленения генеральной совокупности на части. Сюда относятся: а) простой случайный бесповторный отбор; б) простой случайный повторный отбор.

2. Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся: а) типический отбор;б) механический отбор; в) серийный отбор.

Простым случайным называют такой отбор, при котором объекты извлекают по одному из всей генеральной совокупности и после обследования не возвращают (бесповторный отбор) или возвращают         ( повторный отбор) в генеральную совокупность.

     Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности.

Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности. Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесообразен.

Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь, и т. д. Следует указать, что иногда механический отбор может не  обеспечить репрезентативности выборки.

Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а  «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.

Подчеркнем, что на практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы.  

3.      Способы группировки статистических данных. Вариационные ряды.

3.1.  Дискретный вариационный ряд.

Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергают обработке. Рассмотрим пример.

 На телефонной станции проводились наблюдения над числом Х неправильных соединений в минуту. Наблюдения в течение часа дали следующие результаты: 3; 1; 3; 1; 4; 2; 2; 4; 0; 3; 0; 2; 2; 0; 2; 1;4; 3; 3; 1; 4; 2; 2; 1; 1; 2; 1; 0; 3; 4; 1; 3; 2; 7; 2; 0; 0; 1; 3; 3; 1; 2; 4;2; 0; 2; 3; 1; 2; 5; 1; 1; 0; 1; 1; 2; 2; 1; 1; 5. Здесь число X является дискретной случайной величиной , а полученные о ней сведения представляют собой статистические (наблюдаемые) данные.

  Операция, заключающаяся в том, что результаты наблюдений над случайной величиной, т. е. наблюдаемые значения случайной величины, располагают в порядке неубывания, называется ранжированием опытных данных.

После проведения операции ранжирования опытные данные группируют так, что в каждой отдельной группе значения случайной величины будут одинаковы. Расположив приведенные выше данные в порядке неубывания и сгруппировав их, получают ранжированный ряд данных наблюдения

Из ряда чисел видно, что все 60 значений случайной величины разбиты на семь групп, в пределах каждой из которых все значения случайной величины одинаковы. Таким образом, имеется семь различных значений случайной величины: 0; 1; 2; 3; 4; 5; 7. Каждое такое значение обычно называют вариантом.

  Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а изменение этого значения ­ варьированием.

Варианты будем обозначать малыми буквами конца латинского алфавита с соответствующими порядковому номеру группы индексами.

Для каждой группы сгруппированного ряда данных можно подсчитать их численность, т.е. определить число, которое показывает, сколько раз встречается соответствующий вариант в ряде наблюдений. Такие числа называют частотой варианта.

  Численность отдельной группы сгруппированного ряда наблюдаемых данных называется частотой или весом соответствующего варианта и обозначается тi , где iиндекс варианта.                  

В ряде случаев представляет практический интерес относительная частота того или иного варианта, называемая частостью.

  Отношение частоты данного варианта к общей сумме частот всех вариантов называется частостью или долей этого варианта и обозначается рi , где i—индекс варианта, т.е.

   

Нетрудно заметить, что частость является статистической вероятностью появления варианта. Естественно считать частость  выборочным аналогом (вычисленной по выборочным данным) вероятности рi появления значения хi, случайной величины X. Подсчитав частоты и частости для каждого варианта, наблюдаемые данные представляют в виде таблицы, которую называют дискретным вариационным рядом. В первой строке расположены- варианты , во второй- соответствующие частоты , в третьей- соответствующие частости.

  Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов хi с соответствующими им частотами или частностями.

Для рассмотренного примера ряд имеет вид:

xi

0

1

2

3

4

5

7

mi

8

17

16

10

6

2

1

8/60

17/60

16/60

10/60

6/60

2/60

1/60

По данным дискретного вариационного ряда строят

  полигон частот или относительных частот: ломаную, отрезки которой соединяют точки

Полигон относительных частот  

 

3.2. Интервальный вариационный ряд.

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений зачастую не позволяют выделить характерные черты варьирования ее значений. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга.

Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В подобных случаях следует построить интервальный (вариационный) ряд распределения. Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины.

Построение интервального вариационного ряда рассмотрим на примере.

При измерении диаметра валиков после шлифовки получены следующие результаты:

6,75; 6,77; 6,77; 6,73; 6,76; 6,74; 6,70; 6,75; 6,71; 6,72; 6,77; 6,79; 6,71; 6,78;

6,73; 6,70; 6,73; 6,77; 6,75; 6,74; 6,71; 6,70; 6,78; 6,76; 6,81; 6,69; 6,80; 6,80;

6,77; 6,68; 6,74; 6,70; 6,70; 6,74; 6,77; 6,83; 6,76; 6,76; 6,82; 6,77; 6,71; 6,74;

6,77; 6,75; 6,74; 6,75; 6,77; 6,72; 6,74; 6,80; 6,75; 6,80; 6,72; 6,78; 6,70; 6,75;

6,78; 6,78; 6,76; 6,77; 6,74; 6,74; 6,77; 6,73; 6,74; 6,77; 6.74; 6,75; 6,74; 6,76;

6,76; 6,74; 6,74; 6,74; 6,74; 6,76; 6,74; 6,72; 6,80; 6,76; 6,78; 6,73; 6,70; 6,76;

6,76; 6,77; 6,75; 6,78; 6,72; 6,76; 6,78; 6,68; 6,75; 6,73; 6,82; 6,73; 6,80; 6,81;

6,71; 6,82; 6,77; 6,80; 6,80; 6,70; 6,70; 6,82; 6,72; 6,69; 6,73; 6,76; 6,74; 6,77;

6,72; 6,76; 6,78; 6,78; 6,73; 6,76; 6,80; 6,76; 6,72; 6,76; 6,76; 6,70; 6,73; 6,75;

6,77; 6,77; 6,70; 6,81; 6,74; 6,73; 6,77; 6,74; 6,78; 6,69; 6,74; 6,71; 6,76; 6,76;

6,77; 6,70; 6,81; 6,74; 6,74; 6,77; 6,75; 6,80; 6,74; 6,76; 6,77; 6,77; 6,81; 6,75;

6,78; 6,73; 6,76; 6,76; 6,76; 6,77; 6,76; 6,80; 6,77; 6,74; 6,77; 6,72; 6,75; 6,76;

6,77; 6,81; 6,76; 6,76; 6,76; 6,80; 6,74; 6,80; 6,74; 6,73; 6,75; 6,77; 6,74; 6,76;

6,77; 6,77; 6,75; 6,76; 6,74; 6,82; 6,76; 6,73; 6,74; 6,75; 6,76; 6,72; 6,78; 6,72;

6,76; 6,77; 6,75; 6,78.

Для построения интервального ряда необходимо определить величину частичных интервалов. Считая, что все частичные интервалы имеют одну и ту же длину, для каждого интервала следует установить его верхнюю и нижнюю границы, а затем в соответствии с полученной упорядоченной совокупностью частичных интервалов сгруппировать результаты наблюдении. Длину частичного интервала h следует выбрать так, чтобы построенный ряд не был громоздким и в то же время позволял выявить характерные черты изменения значений случайной величины.

Просматривая результаты наблюдений, находим, что наибольшим значением случайной величины х наиб является 6,83, а наименьшим  х наим - 6,68. Найдем размах варьирования R. :

R=6,83-6,68=0,15.

Выберем число интервалов . Для того чтобы вариационный ряд не был слишком громоздким, обычно число интервалов берут от 7 до 11. Положим предварительно v=7, тогда длина частичного интервала

За начало первого интервала рекомендуется брать величину

хнач = хнаим - 0,5h.

В данном случае хнач = 6,67.

 Конец последнего интервала должен удовлетворять условию

 

Промежуточные интервалы получают прибавляя к концу предыдущего интервала длину частичного интервала h (в рассматриваемом случае h=0,02).

Теперь, просматривая результаты наблюдений, определяем, сколько значений признака попало в каждый конкретный интервал. При этом в интервал включают значения случайной величины, большие или равные  нижней границе и меньшие верхней границы.

В таблице частота mi , показывает, в скольких наблюдениях случайная величина приняла значения, принадлежащие тому или иному интервалу, причем нижний конец интервала входит в него, а верхний—нет. Такие частоты обычно называют интервальными, а их отношение к общему числу наблюдений—интервальными частостями.

При вычислении интервальных частостей округление результатов следует проводить таким образом, чтобы общая сумма частостей была равна 1:

Для данного примера интервальный вариационный ряд имеет вид:

xi - xi+1

mi

mi/h

/h

1

6,67-6,69

2

0,01

100

0,5

2

6,69-6,71

15

0,075

750

3,75

3

6,71-6,73

17

0,085

850

4,25

4

6,73-6,75

44

0,22

2200

11

5

6,75-6,77

52

0,26

2600

13

6

6,77-6,79

44

0,22

2200

11

7

6,79-6,81

14

0,07

700

3,5

8

6,81-6,83

11

0,055

550

2,75

9

6,83-6,85

1

0,005

50

0,25

 

200

1

 

 

По данным интервального ряда строят гистограмму частот или гистограмму относительных частот:

Ступенчатая фигура, состоящая из прямоугольников, основания которых- частичные интервалы, высоты равны отношению частоты к длине частичного интервала( плотность частоты) (частости к длине частичного интервала (плотность частости)).Гистограмма частостей имеет вид:

Для гистограммы частот: площадь каждого прямоугольника равна частоте интервала, сумма площадей всех прямоугольников равна объему выборки.

Для гистограммы частостей: площадь каждого прямоугольника равна частости интервала, сумма площадей всех прямоугольников равна 1.

Вариационные ряды задают статистическое распределение выборки: соответствие между вариантами и частотами или частостями.  

4.      Выборочные аналоги интегральной и дифференциальной функций распределения

4.1.  Эмпирическая функция распределения.

Пусть известно статистическое распределение частот количественного признака X. Введем обозначения:

mx- число наблюдений, при которых наблюдалось значение признака, меньшее х; п- общее число наблюдений (объем выборки). Ясно, что относительная частота события     Х < х равна. mx/n. Если х изменяется, то изменяется и относительная частота, т. е. относительная частота  есть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию определяющую для каждого значения х относительную частоту события Х < х, т.е.

В отличие от эмпирической функции распределения выборки функцию распределения F (х) генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F (х) определяет вероятность события    Х < х, а эмпирическая функция  определяет относительную частоту этого же события. Из теоремы Бернулли следует, что относительная частота события Х < х, т. е. эмпирическая функция стремится по вероятности к вероятности F (х) этого события. Отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

Эмпирическая функция  обладает всеми свойствами F(x):

1) ее значения принадлежат отрезку [0, 1];

2) неубывающая;

3) если хi  -наименьшая варианта, то

 

если x k - наибольшая варианта, то

 

Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример. Построить эмпирическую функцию по данному распределению выборки:

xi

2

6

10

mi

12

18

30

Объем выборки n = 12+ 18+ 30 =60. Хнаим= 2, значит при Х £ 2,

Х<6 наблюдалось 12 раз, следовательно, при Х< 6

.

Значение Х<10 наблюдалось 12+18= 30 раз, значит при Х<10

Так как хнаиб =10, то при Х ³ 10

Искомая эмпирическая функция имеет вид:

График строится так же, как и график интегральной функции распределения.

Если результаты наблюдений представлены в виде интервального вариационного ряда, то в качестве х принимают концы частичных интервалов и , пользуясь данным выше определением вычисляют значения эмпирической функции. Причем, при Х< хнач

,

а при Х ³ хкон

  .

Для рассмотренного примера получим таблицу:

х

6,67

6,69

6,71

6,73

6,75

6,77

6,79

6,81

6,83

6,85

0

0,01

0,085

0,17

0,39

0,65

0,87

0,94

0,995

1

 

Так как таблица определяет функцию  не полностью, то при изображении графика доопределяем функцию, соединяя точки графика, соответствующие концам интервалов, отрезками. График эмпирической функции для интервального вариационного ряда есть непрерывная линия.

4.2. Выборочная дифференциальная функция.

Выборочным аналогом дифференциальной функции f(x) является функция

, где

есть  частость попадания наблюдаемых значений СВХ в интервал [x, x + Dx), следовательно,

характеризует плотность частости на этом интервале.

- частость попадания наблюдаемых значений СВХ в частичный интервал , длина которого h, тогда выборочная дифференциальная функция

.

При х £ хнач и  х ³ хкон

                                         .

При построении графика выборочной функции плотности в качестве х принимают середину каждого частичного интервала. Удобно совмещать на одной координатной плоскости гистограмму частостей с графиком выборочной плотности.

Для рассматриваемого примера гистограмма частостей и график выборочной плотности имеют вид:

 

 

Контрольные вопросы

1.      Перечислить основные задачи математической статистики.

2.      Сформулировать определение генеральной совокупности, выборки.

3.      Виды выборок и способы отбора.

4.      Что называется частотой и относительной частотой ( частостью) варианта?

5.      Алгоритм составления дискретного вариационного ряда. Полигон частот или частостей.

6.      Алгоритм составления интервального вариационного ряда. Гистограмма частот и гистограмма частостей , их геометрический смысл.

7.      Эмпирическая функция распределения и ее графики для дискретного и интервального вариационных рядов.

8.      Выборочная дифференциальная функция распределения ( выборочная плотность) и ее график.

 

Hosted by uCoz