1.4. ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ
Определение. Эмпирической функцией распределения выборки называется функция
(2)
где п – объем выборки, пх – число значений признака, меньших чем х, т. е. тех, для которых хi < х.
Функции F*(х) в теории вероятностей отвечает интегральная функция распределения F(х).
Функция F*(х) отличается от интегральной функции распределения F(х) тем, что при составлении F*(х) вместо вероятности события Р(X<х) вычисляется относительная частота события Р*(Х<х).
1.5. ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКОГО РАСПРЕДЕЛЕНИЯ
Пусть имеется выборка объема n со значениями признака х1 х2, х3, ..., хk. Построим статистическое распределение.
Таблица 4
xi
|
x1
|
x2
|
x3
|
…
|
xk
|
ni
|
n1
|
n2
|
n3
|
…
|
nk
|
Для того чтобы охарактеризовать наиболее существенные свойства этого распределения, так же как и в теории вероятностей, используют средние показатели или, как их называют, выборочные числовые характеристики. Рассмотрим некоторые из них.
1. Выборочная средняя .При наличии повторяющихся значений признака
, (3)
где п — объем выборки, хi ni взяты из табл. 4. Выборочная средняя изменяется при переходе от одной выборки к другой, поэтому в силу случайного отбора является случайной величиной.
Если дано распределение непрерывной случайной величины, то вместо хi берут середину интервала (xi, …, xi+1), т.е. .
Для упрощения вычисления выборочных характеристик удобно перейти от данных значений признака x1|, х2, х3,...,хk к условным значениям и1, и2,. и3,..., uk—по формуле
, (4)
т. е. ввести вспомогательную величину , где С–новое начало отсчета, обычно это значение признака с наибольшей частотой, h – масштаб.
Можно показать, что при переходе к условным значениям признака по формуле зависимость, связывающая и , имеет вид
(5)
Действительно,
Пример. Дано статистическое распределение:
Таблица 5
хi
|
1
|
3
|
5
|
7
|
9
|
11
|
ni
|
2
|
8
|
15
|
14
|
7
|
4
|
Найти .
Решение. Перейдем к условным значениям признака, приняв за C значение с наибольшей частотой, т. е. С=5. Далее находим h = xi-xi-1 = 2.
Имеем
Составляем распределение условных значений признака.
Таблица 6
ui
|
–2
|
–1
|
0
|
1
|
2
|
3
|
ni
|
2
|
8
|
15
|
14
|
7
|
4
|
Находим
Особенно выгодно применять формулу (4), если значения признака велики.
2. Выборочная и исправленная дисперсия. Одна числовая характеристика не дает полного представления о статистическом распределении. В агрономической и зоотехнической практике, как и в других сферах производства, при анализе результатов существенным для выводов является характеристика рассеяния значений признака относительно выборочной средней. Отклонение отдельных значений от выборочной средней бывает значительным и с этим нельзя не считаться.
Составим таблицу отклонений , указывая соответствующие частоты.
Таблица 7
Найдем среднее значение отклонений . Имеем
Следовательно, среднее значение отклонения равно нулю, и поэтому непригодно для характеристики рассеяния признака. Для того чтобы освободиться от знака отклонения и при этом сделать влияние больших отклонений «более ощутимыми», их возводят в квадрат и находят среднее значение. Полученную характеристику называют выборочной дисперсией и обозначают .
Итак,
или
(5)
Определение. Выборочной дисперсией называется среднее арифметическое значение квадратов отклонений признака от выборочной средней.
Пример. Урожайность двух сортов А и В пшеницы, возделываемых на трех участках с одинаковыми условиями роста и развития, характеризуется следующими таблицами:
сорт А сорт В
X, ц
|
18
|
19
|
20
|
|
Y, ц
|
17
|
19 '
|
22
|
Площадь, га
|
15
|
25
|
15
|
Площадь, га
|
20
|
20
|
|
Найти дисперсии значений признака обоих сортов.
Решение. Вычислим XB, YB, DX, DY. Находим
Как видим, дисперсия Dy как мера рассеяния или разброса урожайности сорта В относительно среднего значения YB в случае примерно одинаковых площадей больше, чем Dy, а это явление нежелательное. Из двух сортов лучшим является тот, урожайность которого более устойчива. По данным опыта сорт А предпочтительнее сорта В.
Для вычисления выборочной дисперсии используют следующую формулу:
(6)
т. е. дисперсия равна разности между средним значением квадрата и квадратом выборочной средней.
Действительно,
Для облегчения вычисления дисперсии используют следующие свойства:
1°. Дисперсия не изменится, если все значения признака увеличить (уменьшить) на постоянное число.
2°. При умножении значений признака на постоянное число h ≠ 0 дисперсия умножается на h2.
Выборочная дисперсия, как это показано в более подробных курсах (например, [4]), имеет систематическую ошибку, приводящую к уменьшению дисперсии. Чтобы это устранить, вводят поправку, умножая DB, на . В результате получают исправленную дисперсию
(7)
или
(8)
На практике часто вместо этой формулы используют другую, ей равносильную, а именно:
(9)
При малых выборках S ощутимо отличается от DB, например, при n = 2 имеем S2=2DB. С возрастанием n исправленная дисперсия S2DB. Уже при n = 30 дисперсии S2 и DB различаются на 3%.
3. Выборочное среднее квадратическое отклонение.
Определение. Арифметическое значение квадратного корня из выборочной дисперсии называется выборочным средним квадратическим отклонением:
(10)
Исправленное выборочное среднее квадратическое отклонение
(11)
4. Мода. Определение. Модой М0 называют значение признака, которое имеет наибольшую частоту (ni = max).
Например, для распределения, данного табл. 5, мода равна 5.
5. Медиана. Медианой те называют значение признака, которое делит статистическое распределение на две равные части:
me = xk+1, если n = 2k+1,
me = , если n=2k
6. Коэффициент вариации. Для сравнивания меры рассеяния значений признаков около выборочной средней в разных выборках служит коэффициент вариации.
Определение. Коэффициентом вариации V называется отношение выборочного среднего квадратического отклонения к выборочной средней, выраженное в процентах:
(12)
Пусть изучается случайная величина X. Из генеральной совокупности сделана выборка объема п со значениями признака х1 х2,..., хn. Предположим, что х1, х2,...,хn различны. Их можно рассматривать как случайные величины Х1, Х2, ..., Хn, имеющие то же распределение, что и случайная величина X, и, следовательно, одинаковые значения М(Х) и D(Х). Тогда
Воспользовавшись свойствами дисперсии находим
Пусть σ – средняя квадратическая ошибка выборочной средней. Тогда
Вывод. Средняя квадратическая ошибка выборочной средней σ( B) в раз меньше среднего квадратического отклонения случайной величины X, возможные значения которой попали в выборочную совокупность.
Do'stlaringiz bilan baham: |