Комплексная статистическая обработка экспериментальных данных
Министерство образования и науки Украины
Пояснительная записка
к курсовой работе
по дисциплине Статистика
Комплексная статистическая обработка экспериментальных данных
Реферат
Объектом исследования данной работы является комплексный анализ сгенерированных выборок случайных величин и подбор их закона распределения.
Целью работы является изучение методов и приемов анализа статистической информации, получение навыков и опыта работы в пакете STATISTICA.
В данной работе применялись широко используемые статистические методы обработки и анализа данных.
Результатом работы является освоение методов обработки данных статистического наблюдения, их анализа с помощью обобщающих показателей, установление теоретических законов распределения случайных величин и доказательство адекватности этих законов.
Данную курсовую работу можно использовать в качестве наглядного пособия по обработке статистических данных для различных учебных целей и задач.
Задание на курсовой проект
По специально сгенерированному имитатору получить последовательности случайных чисел двух типов:
а) ,
где – номер варианта,
- номер измерения случайной величины,
– случайное число, возвращаемое при обращении к стандартной функции выбранного языка программирования – датчику случайных чисел.
б) .
Для исследований предусмотреть следующие объёмы измерений для каждой из случайных величин: 100, 200, …, 1000 (объёмы выборок).
Произвести статистический анализ каждой из полученных выборок для двух случайных величин в следующей последовательности:
а) найти размах варьирования;
б) определить целесообразное количество групп по формуле Стерджесса, построить группировку и интервальный ряд;
в) привести графическое изображение полигона частот, гистограммы, кумуляты и эмпирической функции распределения;
г) вычислить и проанализировать точечные оценки и
для простого и интервального рядов; построить и проанализировать зависимость величины точечной оценки от объема выборки и от номера эксперимента (10 выборок для объема выборки 1000);
д) построить доверительные интервалы для и
, используя различные значения доверительной вероятности (0,9; 0,95; 0,975; 0,995; 0,999) и проанализировать зависимость длины доверительного интервала от объёма выборки и от величины доверительной вероятности;
е) вычислить и проанализировать медиану, коэффициент вариации, коэффициент асимметрии и эксцесс, моду; проанализировать зависимости числовых характеристик от объема выборки;
ж) оценить однородность каждой из выборок, используя:
1) коэффициент вариации;
2) метод -статистик Ирвина.
з) определить, близки ли к нормальному распределению полученные эмпирические распределения на основе:
1) анализа числовых характеристик положения и вариации;
2) на основе критерия согласия Пирсона;
и) по виду гистограмм выдвинуть гипотезу о предполагаемых законах распределений исследуемых случайных величин, определить оценки параметров предполагаемых распределений (метод моментов и максимального правдоподобия) и проверить гипотезу о законе распределения по критерию Пирсона.
Введение
С давних пор человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов, а также связанных с ними вычислений. Люди получали разносторонние, хотя и различающиеся полнотой сведения на различных этапах общественного развития. Данные учитывались повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне – при определении направления экономической и социальной политики, характера внешнеполитической деятельности.
Выполняя самые разнообразные функции сбора, систематизации и анализа сведений, характеризующих экономическое и социальное развитие общества, статистика всегда играла роль главного поставщика факторов для управленческих, научно-исследовательских и прикладных практических нужд различного рода структур, организаций и населения. Роль статистики в нашей жизни настолько значительна, что люди, часто не задумываясь и не осознавая, постоянно используют элементы статистической методологии в повседневной практике.
Применяя статистические методы в экономических исследованиях, можно осуществлять стратегическое планирование, а также анализировать и прогнозировать рыночную конъюнктуру, уменьшая степень неопределенности в отношении внешнего окружения.
С увеличением объемов информации, становится актуальным вопрос ее компьютерной обработки. Получение навыков обработки и анализа экспериментальных данных с помощью компьютера, например, в пакете STATISTICA дает возможность получить полную информацию об исследуемом объекте и найти оптимальное решение конкретной поставленной задачи.
1. Генерация исходных данных
В данной курсовой работе вместо статистического наблюдения используются случайные величины, сгенерированные по следующим формулам:
1) непрерывная случайная величина X, определяемая по формуле 1.1;
(1.1)
2) непрерывная случайная величина У, определяемая по формуле 1.2.
(1.2)
где ,
- значения случайной величины X и У в различных опытах;
- случайное число, равномерно распределенное на отрезке [0, 1], возвращаемое при обращении к стандартной функции на выбранном языке программирования к датчику случайных чисел; Для генерации исходных данных были использованы следующие методы:
1) Для случайной величины в окне Variable в поле Long Name была введена формула 1.3:
(1.3)
2) Для случайной величины был создан программный имитатор в модуле STATISTICA BASIC. Реализация алгоритма генерации данных в модуле STATISTICA BASIC приведена в приложении А.
В результате были получены выборки, объемом 100, 200…1000 значений для каждой из случайных величин.
2. Первичная обработка результатов наблюдения
2.1 Построение вариационного ряда
Вариационный ряд - упорядоченные по возрастанию значения признака.
Построение вариационного ряда в пакете STATISTICA производилось следующим образом:
в модуле Basic Statistics and Tables: Analysis → Frequency tables → кнопка Variables для выбора переменной → отметили All distinct values → ОК.
Размах варьирования – абсолютная величина разности между максимальным
и минимальным
значениями (вариантами) изучаемого признака:
(2.1)
Построение размаха варьирования в пакете STATISTICA производилось следующим образом:
в модуле Basic Statistics and Tables: Analysis → Descriptive statistics → Variables (выбрать переменную) → нажали Box & whisker plot for all variables → выбрали Median / Quart. / Range → ОК.
Значения размаха варьирования для заданных выборок в таблице 2.1.
Таблица 2.1 – Размах варьирования для заданных выборок
Выборка
100
25,201
6,993
18,209
28,805
2,429
26,376
500
25,110
6,984
18,126
33,695
0,196
33,499
1000
25,237
6,711
18,466
33,962
-1,574
35,536
Случайная величина имеет меньший размах, чем случайная величина
.
2.2 Группировка статистических данных
Число групп определяется по формуле Стерджесса (2.2):
, (2.2)
где – количество групп;
– объем выборки.
После определения числа групп следует определить интервалы группировки - значения варьирующего признака, лежащие в определенных границах. Величина равного интервала определяется по формуле (2.3):
(2.3),
где – число групп интервалов,
– размах выборки .
Ниже приведены значения числа групп интервалов для всех выборок:
При :
.
При :
.
При :
.
При :
.
При :
.
При :
.
При :
.
При :
.
При :
.
При :
.
Построение интервального ряда в пакете STATISTICA производилось следующим образом:
а) Analysis→Frequency tables→Variables(выбрали переменную);
б) установили количество интервалов в “No. of exact intervals”, посчитанных по формуле Стерджесса;
в) установили флажки в Display options:
Cumulative frequencies – накопленные частоты;
Percentages - частости;
Cumulative percentages – накопленные частости.
Интервальные ряды по каждой выборке для случайных величин X и Y приведены в таблицах 2.2-2.7 и Д.1-Д.14.
Таблица 2.2 - Интервальный ряд СВ при
Частота
Кумул. частота
Процент
Кумул. процент
5,475289
8
8
8,00000
8,0000
8,510050
15
23
15,00000
23,0000
11,54481
16
39
16,00000
39,0000
14,57957
18
57
18,00000
57,0000
17,61433
20
77
20,00000
77,0000
20,64909
13
90
13,00000
90,0000
23,68385
10
100
10,00000
100,0000
Таблица 2.3 - Интервальный ряд СВ при
Частота
Кумул. частота
Процент
Кумул. процент
5,850935
25
25
5,00000
5,0000
8,116734
62
87
12,40000
17,4000
10,38253
64
151
12,80000
30,2000
12,64833
55
206
11,00000
41,2000
14,91413
70
276
14,00000
55,2000
17,17993
64
340
12,80000
68,0000
19,44573
74
414
14,80000
82,8000
21,71153
59
473
11,80000
94,6000
23,97733
27
500
5,40000
100,0000
Таблица 2.4 - Интервальный ряд СВ при
Частота
Кумул. частота
Процент
Кумул. процент
5,745344
50
50
5,00000
5,0000
7,797069
106
156
10,60000
15,6000
9,848795
134
290
13,40000
29,0000
11,90052
88
378
8,80000
37,8000
13,95225
117
495
11,70000
49,5000
16,00397
121
616
12,10000
61,6000
18,05570
107
723
10,70000
72,3000
20,10742
117
840
11,70000
84,0000
22,15915
111
951
11,10000
95,1000
24,21087
49
1000
4,90000
100,0000
Таблица 2.5 - Интервальный ряд СВ при
Частота
Кумул.
Процент
Кумул.
0,231076
1
1
1,00000
1,0000
4,627075
6
7
6,00000
7,0000
9,023072
20
27
20,00000
27,0000
13,41907
31
58
31,00000
58,0000
17,81507
22
80
22,00000
80,0000
22,21107
17
97
17,00000
97,0000
26,60706
3
100
3,00000
100,0000
Таблица 2.6 - Интервальный ряд СВ при
Частота
Кумул.
Процент
Кумул.
-1,89766
2
2
0,40000
0,4000
2,289667
21
23
4,20000
4,6000
6,476997
59
82
11,80000
16,4000
10,66433
125
207
25,00000
41,4000
14,85166
147
354
29,40000
70,8000
19,03899
99
453
19,80000
90,6000
23,22632
39
492
7,80000
98,4000
27,41365
7
499
1,40000
99,8000
Таблица 2.7 - Интервальный ряд СВ при
Частота
Кумул.
Процент
Кумул.
-3,54794
5
5
0,50000
0,5000
0,400491
9
14
0,90000
1,4000
4,348925
61
75
6,10000
7,5000
8,297359
177
252
17,70000
25,2000
12,24579
279
531
27,90000
53,1000
16,19423
267
798
26,70000
79,8000
20,14266
154
952
15,40000
95,2000
24,09110
38
990
3,80000
99,0000
28,03953
8
998
0,80000
99,8000
31,98797
2
1000
0,20000
100,0000
2.3 Графическое изображение рядов распределения
Графическое изображение интервальных рядов включает построения полигона частот, гистограммы и кумуляты.
В пакете STATISTICA построение полигона происходит следующим образом:
а) Analysis → Frequency tables → Variables (выбрать переменную);
б) установить количество интервалов в “No. of exact intervals”;
в) Frequency tables → Count;
г) нажать правую кнопку мыши и из выпадающего списка выбрать “Custom Graphs”;
д) 2D Graphs → Graph Type → Line Plot. [1]
Построение кумуляты:
а)Analysis → Frequency tables → Variables (выбрать переменную);
б) установить количество интервалов в “No. of exact intervals”;
в) Frequency tables → Cumul. Count;
г) нажать правую кнопку мыши и выбрать “Custom Graphs”;
д) 2D Graphs → Graph Type → Line Plot (Bar ).
Построение гистограммы происходит следующим образом:
а) Analysis → Frequency tables → Variables (выбрать переменную);
б) установить количество интервалов в “No. of exact intervals”;
в) Frequency tables → Percent;
г) нажать правую кнопку мыши и из выпадающего списка выбрать “Custom Graphs”;
д) 2D Graphs → Graph Type → Bar
2.4 Точечные оценки средних показателей
Точечная оценка математического ожидания по вариационному ряду вычисляется по формуле (2.4):
(2.4)
где – значения элементов выборки.
Оценка дисперсии по вариационному ряду вычисляется по формуле (2.5).
(2.5)
Вычисление оценки математического ожидания по интервальному вариационному ряду осуществляется по формуле (2.6):
(2.6)
где – середина
-го интервала;
– статистическая вероятность (частость) попадания в
-тый интервал.
Оценка дисперсии для интервального ряда вычисляется по формуле (2.7):
(2.7)
Вычисление точечных оценок по вариационному ряду в пакете STATISTICA:
Analysis → Descriptive statistics → Categorization → Number of intervals (установить количество интервалов) → More statistics → Mean, Variance. [2]
Значения точечных оценок математического ожидания и дисперсии для простого и интервального рядов приведены в таблице 2.8.
Таблица 2.8 – Оценки математического ожидания и дисперсии
Выборка
Математическое ожидание
Дисперсия
Простой ряд
Интервальный ряд
Простой ряд
Интервальный ряд
(
)
16,254
16,279
27,849
28,517
(
)
16,189
16,174
26,259
26,598
(
)
15,950
16,006
27,608
28,330
(
)
16,668
16,936
31,125
31,113
(
)
15,989
16,007
30,406
31,242
(
)
15,792
15,740
27,059
28,636
Из приведенных данных видно, что полученные оценки математического ожидания и дисперсии по вариационному (простому) и интервальному рядам имеют близкие значения. Причем, чем больше объем выборки, тем более точный результат. От номера эксперимента, то есть от количества испытаний величины точечной оценки не зависят. Это видно на рисунках 2.25 – 2.32.
Рисунок 2.25 - Зависимость от объема выборки для
Рисунок 2.26 - Зависимость от объема выборки для
Рисунок 2.27 - Зависимость от объема выборки для
Рисунок 2.28 - Зависимость от объема выборки для
Рисунок 2.29 - Зависимость от номера эксперимента по
Рисунок 2.30 - Зависимость от номера эксперимента по
Рисунок 2.31 - Зависимость от номера эксперимента по
Рисунок 2.32 - Зависимость от номера эксперимента по
В таблице 2.9 приведены оценки математического ожидания и дисперсии, вычисленные для 10 выборок по 1000 элементов в каждой для случайной величины и случайной величины
.
Таблица 2.9 – Точечные оценки выборок из 1000 элементов для и
Выборка
1
15,792
27,832
15,754
27,421
2
16,193
29,501
16,283
29,650
3
16,076
29,006
15,900
28,716
4
16,052
28,884
16,096
26,124
5
15,968
28,508
15,947
30,983
6
16,212
28,710
16,163
29,956
7
16,215
28,747
16,030
30,011
8
15,945
27,243
16,428
29,069
9
16,080
28,103
16,054
28,265
10
15,853
28,369
15,980
28,913
2.5 Доверительные интервалы
Для того чтобы оценить достоверность оценок, вводят понятие доверительный интервал и доверительная вероятность.
(2.7)
где – математическое ожидание генеральной совокупности;
- доверительная вероятность;
- оценка математического ожидания;
(2.8) - величина доверительного интервала, вычисляется по формуле (2.8):
где - квантиль нормального распределения, получается обратным интерполированием из таблицы для функции распределения стандартного нормального закона. Вычисляется по формуле (2.9).
(2.10) (2.9)
- оценка дисперсии, вычисляется по формуле (2.10).
Доверительный интервал для дисперсии определяется по формуле (2.11).
(2.12),
где – дисперсия генеральной совокупности;
– оценка дисперсии.
– квантиль нормального распределения.
Оценка стандартного отклонения в зависимости от закона распределения случайной величины имеет различное значение.
Для нормального закона распределения эта величина будет равна:
Для равномерного:
Ниже в таблицах 2.10-2.21 приведены доверительные интервалы математического ожидания исследуемых выборок.
-точный метод
Таблица 2.10 - Доверительные интервалы для СВ ,
15,378
17,130
15,207
17,301
15,053
17,455
14,739
17,769
14,481
18,027
-грубый метод
Таблица 2.11 – Доверительные интервалы для СВ ,
15,376
17,132
15,207
17,301
15,058
17,450
14,753
17,755
14,508
18,000
-точный метод
Таблица 2.12 - Доверительные интервалы для СВ ,
15,811
16,566
15,738
16,639
15,673
16,704
15,542
16,835
15,408
16,940
-грубый метод
Таблица 2.13 – Доверительные интервалы для СВ ,
15,795
16,553
15,722
16,626
15,657
16,691
15,526
16,822
15,420
16,928
-точный метод
Таблица 2.14 - Доверительные интервалы для СВ ,
15,677
16,224
15,624
16,276
15,577
16,323
15,483
16,418
15,447
16,565
-грубый метод
Таблица 2.15 – Доверительные интервалы для СВ ,
15,729
16,283
15,676
16,336
15,629
16,383
15,533
16,479
15,456
16,556
-точный метод
Таблица 2.16 – Доверительные интервалы для СВ ,
15,742
17,595
15,561
17,775
15,399
17,938
15,066
18,270
15,084
18,788
-грубый метод
Таблица 2.17 – Доверительные интервалы для СВ ,
16,018
17,854
15,843
18,029
15,687
18,185
15,369
18,503
15,112
18,760
-точный метод
Таблица 2.18 – Доверительные интервалы для СВ ,
15,583
16,396
15,505
16,474
15,435
16,544
15,294
16,685
15,177
16,837
-грубый метод
Таблица 2.19 – Доверительные интервалы для СВ ,
15,596
16,418
15,517
16,497
15,447
16,567
15,305
16,709
15,190
16,824
-точный метод
Таблица 2.20 – Доверительные интервалы для СВ ,
15,521
16,063
15,469
16,115
15,423
16,161
15,329
16,255
15,178
16,302
-грубый метод
Таблица 2.21 – Доверительные интервалы для СВ ,
15,462
16,018
15,408
16,072
15,361
16,119
15,264
16,216
15,187
16,293
Длины доверительных интервалов для математического ожидания при различных уровнях доверительной вероятности приведены в таблице 2.22.
Таблица 2.22 – Длины доверительных интервалов
Длина интервала
(
)
1,752
2,094
2,402
3,03
3,546
(
)
0,755
0,901
1,031
1,293
1,532
(
)
0,547
0,652
0,746
0,935
1,118
(
)
1,853
2,214
2,539
3,204
3,704
(
)
0,813
0,969
1,109
1,391
1,66
(
)
0,542
0,646
0,738
0,926
1,124
В таблицах 2.23 – 2.34 указаны доверительные интервалы дисперсии исследуемых выборок.
-точный метод
Таблица 2.23 – Доверительные интервалы для СВ ,
25,059
32,793
24,452
33,693
23,926
34,524
22,914
36,280
22,095
37,873
-грубый метод
Таблица 2.24 – Доверительные интервалы для СВ ,
26,084
30,950
25,619
31,415
25,205
31,829
24,362
32,672
23,681
33,353
-точный метод
Таблица 2.25 – Доверительные интервалы для СВ ,
23,373
30,586
22,807
31,426
22,316
32,201
21,372
33,838
20,608
35,324
-грубый метод
Таблица 2.26 – Доверительные интервалы для СВ ,
24,329
28,867
23,895
29,301
23,508
29,688
22,722
30,474
22,088
31,108
-точный метод
Таблица 2.27 – Доверительные интервалы для СВ ,
22,258
29,128
21,719
29,928
21,252
30,666
20,354
32,225
19,626
33,640
-грубый метод
Таблица 2.28 – Доверительные интервалы для СВ ,
23,169
27,491
22,756
27,904
22,388
28,272
21,639
29,021
21,035
29,625
-точный метод
Таблица 2.29 – Доверительные интервалы для СВ ,
27,340
35,779
26,678
36,761
26,104
37,667
25,000
39,582
24,106
41,321
-грубый метод
Таблица 2.30 – Доверительные интервалы для СВ ,
28,459
33,767
27,951
34,275
27,499
34,727
26,579
35,647
25,837
36,389
-точный метод
Таблица 2.31 – Доверительные интервалы для СВ ,
26,575
34,777
25,931
35,732
25,374
36,613
24,301
38,474
23,431
40,164
-грубый метод
Таблица 2.32 – Доверительные интервалы для СВ ,
27,662
32,822
27,168
33,316
26,729
33,755
25,835
34,649
25,114
35,370
-точный метод
Таблица 2.33 – Доверительные интервалы для СВ ,
25,163
32,930
24,554
33,834
24,026
34,668
23,010
36,431
22,187
38,031
-грубый метод
Таблица 2.34 – Доверительные интервалы для СВ ,
26,193
31,079
25,726
31,546
25,310
31,962
24,463
32,809
23,780
33,492
В таблице 2.35 показано изменение длины доверительного интервала для дисперсии в зависимости от объема выборки и величины доверительной вероятности.
Таблица 2.35 – Длины доверительных интервалов
Величина интервала
(
)
7,734
9,241
10,598
13,366
15,778
(
)
7,213
8,619
9,885
12,466
14,716
(
)
4,322
5,148
5,884
7,382
8,590
(
)
8,439
10,083
11,563
14,582
17,215
(
)
8,202
9,801
11,239
14,173
16,733
(
)
7,767
9,280
10,642
13,421
15,844
Анализируя полученные данные можно заметить, что при увеличении уровня доверительной вероятности увеличивается величина доверительного интервала, а при увеличении объема выборки она уменьшается. Это справедливо как для доверительных интервалов математического ожидания, так и для дисперсии. [3]
2.6 Другие точечные оценки интервального ряда (мода, медиана, коэффициент вариации, коэффициент асимметрии, эксцесс)
Модой в вариационном ряду является наиболее часто встречающееся значение признака.
Мода по интервальному ряду вычисляется по формуле (2.13):
(2.13)
где – левая граница модального интервала (модальным называется интервал, имеющий наибольшую частость);
– величина интервала группировки;
– частота модального интервала;
– частота интервала, предшествующего модальному;
– частота интервала, следующего за модальным.
Медиана – серединное наблюдение в выборке длиной n.
При нечетном n медиана в вариационном ряду есть значение ряда с номером .
При четном n медиана есть полусумма значений с номерами и
. В интервальном ряду для нахождения медианы применяется формула (2.14):
(2.14)
где – нижняя граница медианного интервала (медианным называется интервал, накопленная частота которого превышает половину общей суммы частот);
– величина интервала группировки;
– частота медианного интервала;
– накопленная частота интервала, предшествующего медианному.
Коэффициент вариации вычисляется по формуле (2.15):
(2.15)
На основе момента третьего порядка (смотри формулу 2.16) выборочный коэффициент асимметрии находится по формуле (2.17):
(2.16)
(2.17)
С помощью момента четвертого порядка характеризуют свойство рядов распределения, называемое эксцессом. Показатель эксцесса для ранжированного ряда находится по формуле (2.18).
(2.18)
Вычисление точечных оценок по вариационному ряду в пакете STATISTICA происходит следующим образом:
Analysis → Descriptive statistics:
а) Categorization → Number of intervals (установить количество интервалов);
б) нажать кнопку More statistics → откроется окно Statistics, где можно выбрать следующие показатели:
Mean – выборочное среднее;
Median – медиана;
Standard Deviation – стандартное отклонение среднего значения;
Variance – выборочная дисперсия;
Skewness – выборочный коэффициент асимметрии;
Kurtosis – выборочный коэффициент эксцесса;
в) выбрать необходимые параметры и нажать ОК.
Значения медианы, коэффициента вариации, коэффициента ассиметрии и эксцесса приведены в таблице 2.36.
Таблица 2.36 - Медиана, коэффициент вариации, коэффициент ассиметрии и эксцесс
Выборка
Медиана
Коэф. ассиметрии
Эксцесс
Коэф. вариации
(
)
16,587
-0,009
-1,017
0,326
(
)
16,501
-0,058
-1,160
0,317
(
)
16,119
0,007
-1,192
0,329
(
)
16,531
-0,086
-0,449
0,335
(
)
16,013
-0,022
-0,138
0,345
(
)
15,795
-0,080
0,170
0,329
Анализируя полученные данные, можно сказать, что обе случайные величины имеют практически симметричное распределение, т. к. коэффициенты асимметрии всех выборок близки к нулю,
Случайная величина имеет более пологое распределение (эксцесс для всех ее выборок имеет отрицательное значение). А эксцесс выборок случайной величины
практически равен нулю, т.е. "крутизна" распределения случайной величины Y близка к нормальному распределению.
2.7 Оценка однородности выборки
Любая исследуемая совокупность содержит как значения признаков, сложившихся под влиянием факторов, непосредственно характерных для анализируемой совокупности, так и значения признаков, полученных под воздействием иных факторов, не характерных для основной совокупности.
Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному). [4]
Из таблицы 2.36 видно, что однородными можно считать выборки случайной величины при
равном 100, 500, 1000 и
при n равном 1000.
Однородность выборки можно проверить, также используя метод Ирвина, основанный на определении -статистики. При его использовании выявление аномальных наблюдений производится по формуле (2.19).
(2.19)
где – упорядоченная (по возрастанию или по убыванию) исследуемая совокупность;
– значение ряда;
– предыдущее значение ряда;
– среднеквадратическое отклонение.
Если расчетное значение превысит уровень критического, то оно признается аномальным.
Произведя соответствующие расчёты в Microsoft Excel мы убедились, что ни одно из расчётных значений не превышает уровень критического значения. Это значит, что все выборки случайных величин и
– однородны.
2.8 Проверка нормальности эмпирического распределения
2.8.1 Проверка нормальности эмпирического распределения на основе анализа точечных оценок числовых характеристик
Если среднее арифметическое, медиана и мода имеют близкие значения, это указывает на вероятное соответствие изучаемого распределения нормальному закону. Для нормального распределения коэффициент асимметрии и эксцесса равны нулю, а для равномерного эксцесс равен -1,2.
В таблице 2.37 приведены данные для проверки вышеуказанных утверждений.
Таблица 2.37 – Анализ числовых характеристик положения и вариации
равномерный закон (СВ )
нормальный закон (СВ )
выборка
выборка
100
16,254
16,587
-0,009
-1,017
100
16,668
16,531
-0,449
200
16,369
15,840
0,034
-1,264
200
15,688
15,703
0,712
300
16,355
16,335
-0,092
-1,270
300
15,696
15,655
0,472
400
15,658
15,581
0,056
-1,254
400
16,770
16,954
-0,196
500
16,189
16,501
-0,058
-1,160
500
15,989
16,013
-0,138
600
16,048
15,897
-0,022
-1,158
600
16,049
16,008
-0,077
700
15,964
15,956
-0,017
-1,159
700
16,319
16,576
-0,128
800
15,867
15,649
0,072
-1,218
800
15,990
16,082
0,172
900
16,132
16,028
-0,022
-1,243
900
15,885
15,749
-0,092
1000
15,950
16,119
0,007
-1,192
1000
15,792
15,795
0,170
Анализируя полученные данные, можно сделать вывод о том что значения медианы и среднего арифметического для выборок случайной величины и
имеют практически равное значение. Для выборки
значение коэффициента ассиметрии, а для выборки случайной величины
значение эксцесса практически равно 0. Для случайной величины
значение эксцесса практически -1,2. Таким образом, все это свидетельствует о близости распределения случайной величины
нормальному распределению, а случайной величины
равномерному.
2.9 Определение закона распределения случайных величин
2.9.1 Определение закона распределения случайной величины по виду гистограммы
По виду гистограмм, приведенных на рисунках 2.19-2.21 делаем предположение о том, что случайная величина подчиняется равномерному закону распределения, а случайная величина
соответствует нормальному закону распределения, что можно увидеть на рисунках 2.22-2.24.
2.9.2 Определение оценок параметров распределений
Метод моментов
Метод моментов заключается в том, что определенное количество статистических начальных и (или) центральных моментов приравнивается к соответствующим теоретическим моментам распределения случайной величины. Уравнения метода показано в формуле (2.23).
(2.23)
(2.24) – теоретический начальный момент
-того порядка для непрерывной случайной величины, вычисляется по формуле (2.24):
.
– статистическая оценка соответствующего теоретического момента
-того порядка, вычисляется по формуле (2.25):
(2.25).
– теоретический центральный момент s-того порядка, вычисляется по формуле (2.26):
(2.26).
– статистическая оценка теоретического центрального момента
-того порядка, вычисляется по формуле (2.27):
(2.27).
Из системы (2.23) находятся параметры распределения. Число уравнений в системе зависит от количества неизвестных параметров. Для нормального и равномерного законов, система должна содержать два уравнения, для экспоненциального – одно.
Для равномерного закона распределения система (2.23) принимает вид (2.28):
(2.28)
Из системы 2.28 нужно найти параметры и
.
В таблице 2.38 приведены значения этих параметров, найденные методом моментов и методом максимального правдоподобия.
Таблица 2.38 – Значения параметров и
(метод
моментов)
(метод максимального
правдоподобия)
∆
(метод
моментов)
(метод максимального
правдоподобия)
∆
6,993
6,996
0,003
25,201
25,542
0,341
6,984
7,313
0,329
25,110
25,065
0,045
6,711
6,849
0,138
25,237
25,051
0,186
Из таблицы видно, что значения параметров, найденные разными методами, практически совпадают. Это подтверждает, что случайная величина распределена по равномерному закону.
Метод максимального правдоподобия
По методу максимального правдоподобия, строится так называемая функция правдоподобия (2.29):
(2.29)
где – выборка,
– вектор параметров.
Необходимо найти такие значения вектора , чтобы функция
достигала максимума. Для этого строят систему правдоподобия (2.30), содержащую частные производные от функции правдоподобия по всем переменным, приравненные к нулю. Для упрощения вычислений переходят к функции
, равной логарифму натуральному от
:
(2.30) .
Оценки параметров, получаемые из этой системы, называют оценками максимального правдоподобия.
Для равномерного закона функция правдоподобия будет иметь вид (2.31)
(2.31)
где и
– параметры распределения.
Данная функция будет достигать максимума при условии (2.32):
Судя по полученным оценкам параметров распределения, можно сделать вывод, что наше предположение было верно изначально и случайная величина действительно распределена равномерно.
2.10 Проверка нормальности эмпирического распределения на основе критериев согласия Пирсона
Для проверки гипотезы о соответствии эмпирического распределения нормальному закону распределения необходимо ввести нулевую гипотезу, которая будет проверяться по критерию Пирсона.
: генеральная совокупность распределена по нормальному закону.
В качестве меры расхождения для критерия выбирается величина, равная взвешенной сумме квадратов отклонений статистической вероятности от соответствующей теоретической вероятности, рассчитанных по нормальному закону теоретического распределения
вычисляется по формуле (2.20)
(2.20)
где – частота попадания в i-тый интервал;
– объем выборки;
– теоретическая вероятность попадания i-тый интервал:
(2.21).
Общая схема применения критерия :
Определение меры расхождения по формуле 2.20;
Задание уровня значимости
;
Определение числа степеней свободы
по формуле 2.22.
, (2.22)
где – количество интервалов в интервальном ряду;
– число налагаемых связей, равное числу параметров
предполагаемого закона распределения
4. Область принятия основной гипотезы:
.
Выполнение в пакете STATISTICA.
В модуле Nonparametric Statistics (непараметрическая статистика), Distribution Fitting. В поле Continuous Distributions представлены непрерывные распределения, а в поле Discrete Distributions - дискретные распределения (закон распределения выбираем дважды щелкнув на его название мышью) Variable (выбрать переменную) в поле Plot distribution выбираем Frequency distribution (частоты распределения) в поле Kolmogorov-Smirnov test ставим No → установим необходимые параметры числа интервалов, верхней и нижней границ, среднего и дисперсии → Graph. Результаты проверки соответствия гипотезы приведены в таблице 2.39 и показаны на рисунках 2.41-2.46
Таблица 2.39 – Значения и χ2крит для случайных величин
и
Выборка
Гипотеза
(
)
4
9,49
7,53
Принимается
(
)
4
9,49
11,815
Отвергается
(
)
5
11,1
11,95
Отвергается
(
)
5
11,1
25,54
Отвергается
(
)
6
12,59
45,51
Отвергается
(
)
6
12,59
39,83
Отвергается
(
)
6
12,59
48,77
Отвергается
(
)
7
14,1
40,81
Отвергается
(
)
7
14,1
49,97
Отвергается
(
)
7
14,1
76,75
Отвергается
(
)
4
9,49
2,04
Принимается
(
)
4
9,49
2,12
Принимается
(
)
5
11,1
2,78
Принимается
(
)
5
11,1
2,99
Принимается.
(
)
6
12,59
3,15
Принимается
(
)
6
12,59
4,61
Принимается
(
)
6
12,59
5,07
Принимается
(
)
7
14,1
5,86
Принимается
(
)
7
14,1
6,32
Принимается
(
)
7
14,1
7,16
Принимается
На основе полученных данных можно сделать вывод, что случайная величина распределена по нормальному закону, а случайная величина
не распределена по нормальному закону.
Анализируя получившиеся графики, делаем вывод, что случайная величина распределена по равномерному закону, а случайная величина
– по нормальному.
Заключение
В ходе курсовой работы были освоены методы обработки данных статистического наблюдения, их анализа с помощью обобщающих показателей, установление теоретических законов распределения случайных величин и доказательство адекватности этих законов. Также в результате выполнения данной работы мы приобрели навыки и опыт работы в пакете STATISTICА.
В ходе анализа данных, были сделаны выводы, что основной частью статистического анализа является выявление закона распределения случайной величины, а также, выявление основных факторов, оказывающих влияние на качество оцениваемых параметров закона распределения (длина выборки, её однородность, величина доверительной вероятности). Был произведен статистический анализ каждой из полученных в ходе генерации выборок данных двух случайных величин, был найден закон их распределения. Рассмотрены основные числовые характеристики положения и вариации нормального и равномерного закона.
Полученный опыт работы со статистическими данными и методами их обработки на компьютере позволит гораздо быстрее и эффективнее применять эти методы обработки информации в повседневной жизни, в частности, для экономических исследований и разработок.
Перечень ссылок
случайный величина интервальный выборка
Теория статистики: Учебник / Под ред. проф. Р. А. Шмойловой. - 3-е изд., перераб. -М.: Финансы и статистика, 2000. - 560 с.
Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник / Под ред. чл.-корр. РАН И. И. Елисеевой. – М.: Финансы и статистика, 1998. – 365 с.: ил.
Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. – М.: Наука, 1969. – 509 с.
Гурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для втузов. Изд. 5-е перераб. и доп. – М.: Высш. школа, 1977. – 397 с.
Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.: Unity, 2000. – 544 с.
Вентцель Е.С. Теория вероятностей. – М.: Наука, 1969. – 576 с.
Боровиков В. STATISTICA: искусство анализа данных на компьютере. Для профессионалов. - СПб.: Питер, 2001. - 656 с.
Приложение А
Генерация исходных данных СВ в пакете STATISTICA
Dim ADS As Spreadsheet
Dim STBReport As Report
Dim SUM As Double
Dim LOOP_CASE As Double
Dim I As Double
Sub Main
Set ADS = ActiveDataSet
Set STBReport = Reports.New
For LOOP_CASE = 1 To NCASES(ADS)
For I = 1 To n
SUM = 0
For L = 1 To 300
SUM = SUM + Uniform(1)
Next L
ADS.Value (LOOP_CASE, 1) = N * ((1 / 15) * SUM - 9)
Next I
NEXT_CASE:
Next LOOP_CASE
End Sub
Приложение Б
Интервальные ряды для СВ и
Таблица Д.1 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,289175
14,000
14,000
7,000
7,000
8,355050
34,000
48,000
17,000
24,000
11,42093
33,000
81,000
16,500
40,500
14,48680
33,000
114,000
16,500
57,000
17,55268
29,000
143,000
14,500
71,500
20,61855
23,000
166,000
11,500
83,000
23,68443
34,000
200,000
17,000
100,000
Таблица Д.2 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,502861
25,000
25,000
8,333
8,333
8,114160
37,000
62,000
12,333
20,667
10,72546
40,000
102,000
13,333
34,000
13,33676
39,000
141,000
13,000
47,000
15,94806
39,000
180,000
13,000
60,000
18,55936
41,000
221,000
13,667
73,667
21,17066
51,000
272,000
17,000
90,667
23,78195
28,000
300,000
9,333
100,000
Таблица Д.3 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,555859
33,000
33,000
8,250
8,250
8,176674
69,000
102,000
17,250
25,500
10,79749
54,000
156,000
13,500
39,000
13,41830
54,000
210,000
13,500
52,500
16,03912
51,000
261,000
12,750
65,250
18,65993
58,000
319,000
14,500
79,750
21,28075
54,000
373,000
13,500
93,250
23,90156
27,000
400,000
6,750
100,000
Таблица Д.4 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,616825
42,000
42,000
7,000
7,000
7,918099
60,000
102,000
10,000
17,000
10,21937
79,000
181,000
13,167
30,167
12,52065
78,000
259,000
13,000
43,167
14,82192
75,000
334,000
12,500
55,667
17,12319
69,000
403,000
11,500
67,167
19,42447
92,000
495,000
15,333
82,500
21,72574
70,000
565,000
11,667
94,167
24,02701
35,000
600,000
5,833
100,000
Таблица Д.5 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,638499
48,000
48,000
6,857
6,857
7,943963
80,000
128,000
11,429
18,286
10,24943
80,000
208,000
11,429
29,714
12,55489
100,000
308,000
14,286
44,000
14,86035
91,000
399,000
13,000
57,000
17,16582
83,000
482,000
11,857
68,857
19,47128
94,000
576,000
13,429
82,286
21,77675
89,000
665,000
12,714
95,000
24,08221
35,000
700,000
5,000
100,000
Таблица Д.6 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,746050
50,000
50,000
6,250
6,250
7,794074
87,000
137,000
10,875
17,125
9,842099
88,000
225,000
11,000
28,125
11,89012
110,000
335,000
13,750
41,875
13,93815
77,000
412,000
9,625
51,500
15,98617
84,000
496,000
10,500
62,000
18,03420
83,000
579,000
10,375
72,375
20,08222
77,000
656,000
9,625
82,000
22,13025
96,000
752,000
12,000
94,000
24,17827
48,000
800,000
6,000
100,000
Таблица Д.7 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
5,747041
46,000
46,000
5,111
5,111
7,795948
118,000
164,000
13,111
18,222
9,844855
93,000
257,000
10,333
28,556
11,89376
84,000
341,000
9,333
37,889
13,94267
107,000
448,000
11,889
49,778
15,99158
85,000
533,000
9,444
59,222
18,04048
108,000
641,000
12,000
71,222
20,08939
88,000
729,000
9,778
81,000
22,13830
108,000
837,000
12,000
93,000
24,18720
63,000
900,000
7,000
100,000
Таблица Д.8 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
-3,85839
2,000
2,000
1,000
1,000
1,661475
7,000
9,000
3,500
4,500
7,181336
47,000
56,000
23,500
28,000
12,70120
79,000
135,000
39,500
67,500
18,22106
54,000
189,000
27,000
94,500
23,74092
8,000
197,000
4,000
98,500
29,26078
3,000
200,000
1,500
100,000
Таблица Д.9 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
-3,50252
2,000
2,000
0,667
0,667
1,766314
13,000
15,000
4,333
5,000
7,035144
63,000
78,000
21,000
26,000
12,30397
106,000
184,000
35,333
61,333
17,57280
91,000
275,000
30,333
91,667
22,84163
21,000
296,000
7,000
98,667
28,11046
3,000
299,000
1,000
99,667
33,37929
1,000
300,000
0,333
100,000
Таблица Д.10 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
1,299935
5,000
5,000
1,250
1,250
5,325310
31,000
36,000
7,750
9,000
9,350685
63,000
99,000
15,750
24,750
13,37606
117,000
216,000
29,250
54,000
17,40143
109,000
325,000
27,250
81,250
21,42681
55,000
380,000
13,750
95,000
25,45218
16,000
396,000
4,000
99,000
29,47756
4,000
400,000
1,000
100,000
Таблица Д.11 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
-1,98797
1,000
1,000
0,167
0,167
1,772650
12,000
13,000
2,000
2,167
5,533271
54,000
67,000
9,000
11,167
9,293892
100,000
167,000
16,667
27,833
13,05451
166,000
333,000
27,667
55,500
16,81513
154,000
487,000
25,667
81,167
20,57576
88,000
575,000
14,667
95,833
24,33638
17,000
592,000
2,833
98,667
28,09700
8,000
600,000
1,333
100,000
Таблица Д.12 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
-2,68355
2,000
2,000
0,286
0,286
1,245110
10,000
12,000
1,429
1,714
5,173768
41,000
53,000
5,857
7,571
9,102425
149,000
202,000
21,286
28,857
13,03108
180,000
382,000
25,714
54,571
16,95974
178,000
560,000
25,429
80,000
20,88840
102,000
662,000
14,571
94,571
24,81705
31,000
693,000
4,429
99,000
28,74571
7,000
700,000
1,000
100,000
Таблица Д.13 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
-1,52038
4,000
4,000
0,500
0,500
2,421483
37,000
41,000
4,625
5,125
6,363342
69,000
110,000
8,625
13,750
10,30520
185,000
295,000
23,125
36,875
14,24706
231,000
526,000
28,875
65,750
18,18892
175,000
701,000
21,875
87,625
22,13078
75,000
776,000
9,375
97,000
26,07264
20,000
796,000
2,500
99,500
30,01449
3,000
799,000
0,375
99,875
33,95635
1,000
800,000
0,125
100,000
Таблица Д.14 - Интервальный ряд СВ ,
Частота
Кумул.
Процент
Кумул.
-1,06170
3,000
3,000
0,333
0,333
2,578305
36,000
39,000
4,000
4,333
6,218309
71,000
110,000
7,889
12,222
9,858313
171,000
281,000
19,000
31,222
13,49832
277,000
558,000
30,778
62,000
17,13832
176,000
734,000
19,556
81,556
20,77832
110,000
844,000
12,222
93,778
24,41833
47,000
891,000
5,222
99,000
28,05833
7,000
898,000
0,778
99,778
31,69833
2,000
900,000
0,222
100,000

Нравится материал? Поддержи автора!
Ещё документы из категории экономика:
Чтобы скачать документ, порекомендуйте, пожалуйста, его своим друзьям в любой соц. сети.
После чего кнопка «СКАЧАТЬ» станет доступной!
Кнопочки находятся чуть ниже. Спасибо!
Кнопки:
Скачать документ