Среднее квадратичное отклонение характеризует. Стандартное отклонение

Занятие №4

Тема: «Описательная статистика. Показатели разнообразия признака в совокупности»

Основными критериями разнообразия признака в статистической совокупности являются: лимит, амплитуда, среднее квадратическое отклонение, коэффициент осцилляции и коэффициент вариации. На предыдущем занятии обсуждалось, что средние величины дают лишь обобщающую характеристику изучаемого признака в совокупности и не учитывают значения отдельных его вариант: минимальное и максимальное значения, выше среднего, ниже среднего и т.д.

Пример. Средние величины двух разных числовых последовательностей: -100; -20; 100; 20 и 0,1; -0,2; 0,1 абсолютно одинаковы и равны О. Однако, диапазоны разброса данных этих последовательностей относительного среднего значения сильно различны.

Определение перечисленных критериев разнообразия признака прежде всего осуществляется с учетом его значения у отдельных элементов статистической совокупности.

Показатели измерения вариации признака бывают абсолютные и относительные . К абсолютным показателям вариации относят: размах вариации, лимит, среднее квадратическое отклонение, дисперсию. Коэффициент вариации и коэффициент осцилляции относятся к относительным показателям вариации.

Лимит (lim)– это критерий, который определяется крайними значениями вариант в вариационном ряду. Другими словами, данный критерий ограничивается минимальной и максимальной величинами признака:

Амплитуда (Am) или размах вариации – это разность крайних вариант. Расчет данного критерия осуществляется путем вычитания из максимального значения признака его минимального значения, что позволяет оценить степень разброса вариант:

Недостатком лимита и амплитуды как критериев вариабельности является то, что они полностью зависят от крайних значений признака в вариационном ряду. При этом не учитываются колебания значений признака внутри ряда.

Наиболее полную характеристику разнообразия признака в статистической совокупности дает среднее квадратическое отклонение (сигма), которое является общей мерой отклонения вариант от своей средней величины. Среднее квадратическое отклонение часто называют также стандартным отклонением .

В основе среднего квадратического отклонения лежит сопоставление каждой варианты со средней арифметической данной совокупности. Так как в совокупности всегда будут варианты как меньше, так и больше, чем она, то сумма отклонений , имеющих знак "", будет погашаться суммой отклонений, имеющих знак "", т.е. сумма всех отклонений равна нулю. Для того, чтобы избежать влияния знаков разностей берут отклонения вариант от среднего арифметического в квадрате, т.е. . Сумма квадратов отклонений не равняется нулю. Чтобы получить коэффициент, способный измерить изменчивость, берут среднее от суммы квадратов – это величина носит название дисперсии:

По смыслу, дисперсия – это средний квадрат отклонений индивидуальных значений признака от его средней величины. Дисперсия квадрат среднего квадратического отклонения .

Дисперсия является размерной величиной (именованной). Так, если варианты числового ряда выражены в метрах, то дисперсия дает квадратные метры; если варианты выражены в килограммах, то дисперсия дает квадрат этой меры (кг 2), и т.д.

Среднее квадратическое отклонение – квадратный корень из дисперсии:

, то при расчете дисперсии и среднего квадратического отклонения в знаменателе дроби вместо необходимо ставить .

Расчет среднего квадратического отклонения можно разбить на шесть этапов, которые необходимо осуществить в определенной последовательности:

Применение среднеквадратического отклонения:

а) для суждения о колеблемости вариационных рядов и сравнительной оценки типичности (представительности) средних арифметических величин. Это необходимо в дифференциальной диагностике при определении устойчивости признаков.

б) для реконструкции вариационного ряда, т.е. восстановления его частотной характеристики на основе правила «трех сигм» . В интервале (М±3σ) находится 99,7% всех вариант ряда, в интервале (М±2σ) - 95,5% и в интервале (М±1σ) - 68,3% вариант ряда (рис.1).

в) для выявления «выскакивающих» вариант

г) для определения параметров нормы и патологии с помощью сигмальных оценок

д) для расчета коэффициента вариации

е) для расчета средней ошибки средней арифметической величины.

Для характеристики любой генеральной совокупности, имеющей нормальный тип распределения , достаточно знать два параметра: среднюю арифметическую и среднее квадратическое отклонение.

Рисунок 1. Правило «трех сигм»

Пример.

В педиатрии среднеквадратическое отклонение используется для оценки физического развития детей путем сравнения данных конкретного ребенка с соответствующими стандартными показателями. За стандарт принимаются средние арифметические показатели физического развития здоровых детей. Сравнение показателей со стандартами проводят по специальным таблицам, в которых стандарты приводятся вместе с соответствующими им сигмальными шкалами. Считается, что если показатель физического развития ребенка находится в пределах стандарт (среднее арифметическое) ±σ, то физическое развитие ребенка (по этому показателю) соответствует норме. Если показатель находится в пределах стандарт ±2σ, то имеется незначительное отклонение от нормы. Если показатель выходит за эти границы, то физическое развитие ребенка резко отличается от нормы (возможна патология).

Кроме показателей вариации, выраженных в абсолютных величинах, в статистическом исследовании используются показатели вариации, выраженные в относительных величинах. Коэффициент осцилляции - это отношение размаха вариации к средней величине признака. Коэффициент вариации - это отношение среднего квадратического отклонения к средней величине признака. Как правило, эти величины выражаются в процентах.

Формулы расчета относительных показателей вариации:

Из приведенных формул видно, что чем больше коэффициент V приближен к нулю, тем меньше вариация значений признака. Чем больше V , тем более изменчив признак.

В статистической практике наиболее часто применяется коэффициент вариации. Он используется не только для сравнительной оценки вариации, но и для характеристики однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному). Арифметически отношение σ и средней арифметической нивелирует влияние абсолютной величины этих характеристик, а процентное соотношение делает коэффициент вариации величиной безразмерной (неименованной).

Полученное значение коэффициента вариации оценивается в соответствии с ориентировочными градациями степени разнообразия признака:

Слабое - до 10 %

Среднее - 10 - 20 %

Сильное - более 20 %

Использование коэффициента вариации целесообразно в случаях, когда приходится сравнивать признаки разные по своей величине и размерности.

Отличие коэффициента вариации от других критериев разброса наглядно демонстрирует пример .

Таблица 1

Состав работников промышленного предприятия

На основании приведенных в примере статистических характеристик можно сделать вывод об относительной однородности возрастного состава и образовательного уровня работников предприятия при низкой профессиональной устойчивости обследованного контингента. Нетрудно заметить, что попытка судить об этих социальных тенденциях по среднему квадратическому отклонению привела бы к ошибочному заключению, а попытка сравнения учетных признаков «стаж работы» и «возраст» с учетным признаком «образование» вообще была бы некорректной из-за разнородности этих признаков.

Медиана и перцентили

Для порядковых (ранговых) распределений, где критерием середины ряда является медиана, среднеквадратическое отклонение и дисперсия не могут служить характеристиками рассеяния вариант.

То же свойственно и для открытых вариационных рядов. Указанное обстоятельство связано с тем, что отклонения, по которым вычисляются дисперсия и σ, отсчитываются от среднего арифметического, которое не вычисляется в открытых вариационных рядах и в рядах распределений качественных признаков. Поэтому для сжатого описания распределений используется другой параметр разброса – квантиль (синоним - «nерцентиль»), пригодный для описания качественных и количественных признаков при любой форме их распределения. Этот параметр может использоваться и для перевода количественных признаков в качественные. В этом случае такие оценки присваиваются в зависимости от того, какому по порядку квантилю соответствует та или иная конкретная варианта.

В практике медико-биологических исследований наиболее часто используются следующие квантили:

– медиана;

, – квартили (четверти), где – нижний квартиль, верхний квартиль.

Квантили делят область возможных изменений вариант в вариационном ряду на определенные интервалы. Медиана (квантиль) – это варианта, которая находится в середине вариационного ряда и делит этот ряд пополам, на две равные части (0,5 и 0,5 ). Квартиль делит ряд на четыре части: первая часть (нижний квартиль) – это варианта, отделяющая варианты, числовые значения которых не превышают 25% максимально возможного в данном ряду, квартиль отделяет варианты с числовым значением до 50% от максимально возможного. Верхний квартиль () отделяет варианты величиной до 75% от максимально возможных значений.

В случае асимметричности распределения переменной относительно среднего арифметического для его характеристики используются медиана и квартили. В этом случае используется следующая форма отображения средней величины – Ме (;). Например , исследуемый признак – «срок, в котором ребенок начал самостоятельно ходить» - в исследуемой группе имеет ассиметричное распределение. При этом, нижнему квартилю () соответствует срок начала ходьбы – 9,5 месяцев, медиане – 11 месяцев, верхнему квартилю () – 12 месяцев. Соответственно, характеристика средней тенденции указанного признака будет представлена, как 11 (9,5; 12) месяцев.

Оценка статистической значимости результатов исследования

Под статистической значимостью данных понимают степень их соответствия отображаемой действительности, т.е. статистически значимыми данными считаются те, которые не искажают и правильно отражают объективную реальность.

Оценить статистическую значимость результатов исследования – означает определить, с какой вероятностью возможно перенести результаты, полученные на выборочной совокупности, на всю генеральную совокупность. Оценка статистической значимости необходима для понимания того, насколько по части явления можно судить о явлении в целом и его закономерностях.

Оценка статистической значимости результатов исследования складывается из:

1. ошибок репрезентативности (ошибок средних и относительных величин) - m ;

2. доверительных границ средних или относительных величин;

3. достоверности разности средних или относительных величин по критерию t .

Стандартная ошибка средней арифметической или ошибка репрезентативности характеризует колебания средней. При этом необходимо отметить, что чем больше объем выборки, тем меньше разброс средних величин. Стандартная ошибка среднего вычисляется по формуле:

В современной научной литературе средняя арифметическая записывается вместе с ошибкой репрезентативности:

или вместе со среднеквадратическим отклонением:

В качестве примера рассмотрим данные по 1500 городских поликлиник страны (генеральная совокупность). Среднее число пациентов, обслуживающихся в поликлинике равно 18150 человек. Случайный отбор 10 % объектов (150 поликлиник) дает среднее число пациентов, равное 20051 человек. Ошибка выборки, очевидно связанная с тем, что не все 1500 поликлиник попали в выборку, равна разности между этими средними – генеральным средним (M ген) и выборочным средним (М выб). Если сформировать другую выборку того же объема из нашей генеральной совокупности, она даст другую величину ошибки. Все эти выборочные средние при достаточно больших выборках распределены нормально вокруг генеральной средней при достаточно большом числе повторений выборки одного и того же числа объектов из генеральной совокупности. Стандартная ошибка среднего m - это неизбежный разброс выборочных средних вокруг генеральной средней.

В случае, когда результаты исследования представлены относительными величинами (например, процентными долями) – рассчитывается стандартная ошибка доли:

где P – показатель в %, n – количество наблюдений.

Результат отображается в виде (P ± m)%. Например, процент выздоровления среди больных составил (95,2±2,5)%.

В том случае, если число элементов совокупности , то при расчете стандартных ошибок среднего и доли в знаменателе дроби вместо необходимо ставить .

Для нормального распределения (распределение выборочных средних является нормальным) известно, какая часть совокупности попадает в любой интервал вокруг среднего значения. В частности:

На практике проблема заключается в том, что характеристики генеральной совокупности нам неизвестны, а выборка делается именно с целью их оценки. Это означает, что если мы будем делать выборки одного и того же объема n из генеральной совокупности, то в 68,3% случаев на интервале будет находиться значение M (оно же в 95,5% случаев будет находиться на интервале и в 99,7% случаев – на интервале).

Поскольку реально делается только одна выборка, то формулируется это утверждение в терминах вероятности: с вероятностью 68,3% среднее значение признака в генеральной совокупности заключено в интервале, с вероятностью 95,5% - в интервале и т.д.

На практике вокруг выборочного значения строится такой интервал, который бы с заданной (достаточно высокой) вероятностью – доверительной вероятностью – «накрывал» бы истинное значение этого параметра в генеральной совокупности. Этот интервал называется доверительным интервалом .

Доверительная вероятность P это степень уверенности в том, что доверительный интервал действительно будет содержать истинное (неизвестное) значение параметра в генеральной совокупности.

Например, если доверительная вероятность Р равна 90%, то это означает, что 90 выборок из 100 дадут правильную оценку параметра в генеральной совокупности. Соответственно, вероятность ошибки, т.е. неверной оценки генерального среднего по выборке, равна в процентах: . Для данного примера это значит, что 10 выборок из 100 дадут неверную оценку.

Очевидно, что степень уверенности (доверительная вероятность) зависит от величины интервала: чем шире интервал, тем выше уверенность, что в него попадет неизвестное значение для генеральной совокупности . На практике для построения доверительного интервала берется, как минимум, удвоенная ошибка выборки, чтобы обеспечить уверенность не менее 95,5%.

Определение доверительных границ средних и относительных величин позволяет найти два их крайних значения – минимально возможное и максимально возможное, в пределах которых изучаемый показатель может встречаться во всей генеральной совокупности. Исходя из этого, доверительные границы (или доверительный интервал) - это границы средних или относительных величин, выход за пределы которых вследствие случайных колебаний имеет незначительную вероятность.

Доверительный интервал может быть переписан в виде: , где t – доверительный критерий.

Доверительные границы средней арифметической величины в генеральной совокупности определяют по формуле:

М ген = М выб + t m M

для относительной величины:

Р ген = Р выб + t m Р

где М ген и Р ген - значения средней и относительной величины для генеральной совокупности; М выб и Р выб - значения средней и относительной величины, полученные на выборочной совокупности; m M и m P - ошибки средней и относительной величин; t - доверительный критерий (критерий точности, который устанавливается при планировании исследования и может быть равен 2 или 3); t m - это доверительный интервал или Δ – предельная ошибка показателя, полученного при выборочном исследовании.

Следует отметить, что величина критерия t в определенной мере связана с вероятностью безошибочного прогноза (р), выраженной в %. Ее избирает сам исследователь, руководствуясь необходимостью получить результат с нужной степенью точности. Так, для вероятности безошибочного прогноза 95,5% величина критерия t составляет 2, для 99,7% - 3.

Приведенные оценки доверительного интервала приемлемы лишь для статистических совокупностей с количеством наблюдений более 30. При меньшем объеме совокупности (малых выборках) для определения критерия t пользуются специальными таблицами. В данных таблицах искомое значение находится на пересечении строки, соответствующей численности совокупности (n-1) , и столбца, соответствующего уровню вероятности безошибочного прогноза (95,5%; 99,7%), выбранному исследователем. В медицинских исследованиях при установлении доверительных границ любого показателя принята вероятность безошибочного прогноза 95,5% и более. Это означает, что величина показателя, полученная на выборочной совокупности должна встречаться в генеральной совокупности как минимум в 95,5% случаев.

    Вопросы по теме занятия:

    Актуальность показателей разнообразия признака в статистической совокупности.

    Общая характеристика абсолютных показателей вариации.

    Среднее квадратическое отклонение, расчет, применение.

    Относительные показатели вариации.

    Медиана, квартильная оценка.

    Оценка статистической значимости результатов исследования.

    Стандартная ошибка средней арифметической, формула расчета, пример использования.

    Расчет доли и ее стандартной ошибки.

    Понятие доверительной вероятности, пример использования.

10. Понятие доверительного интервала, его применение.

    Тестовые задания по теме с эталонами ответов:

1. К АБСОЛЮТНЫМ ПОКАЗАТЕЛЯМ ВАРИАЦИИ ОТНОСИТСЯ

1) коэффициент вариации

2) коэффициент осцилляции

4) медиана

2. К ОТНОСИТЕЛЬНЫМ ПОКАЗАТЕЛЯМ ВАРИАЦИИ ОТНОСИТСЯ

1) дисперсия

4) коэффициент вариации

3. КРИТЕРИЙ, КОТОРЫЙ ОПРЕДЕЛЯЕТСЯ КРАЙНИМИ ЗНАЧЕНИЯМИ ВАРИАНТ В ВАРИАЦИОННОМ РЯДУ

2) амплитуда

3) дисперсия

4) коэффициент вариации

4. РАЗНОСТЬ КРАЙНИХ ВАРИАНТ – ЭТО

2) амплитуда

3) среднее квадратичное отклонение

4) коэффициент вариации

5. СРЕДНИЙ КВАДРАТ ОТКЛОНЕНИЙ ИНДИВИДУАЛЬНЫХ ЗНАЧЕ­НИЙ ПРИЗНАКА ОТ ЕГО СРЕДНЕЙ ВЕЛИЧИНЫ – ЭТО

1) коэффициент осцилляции

2) медиана

3) дисперсия

6. ОТНОШЕНИЕ РАЗМАХА ВАРИАЦИИ К СРЕДНЕЙ ВЕЛИЧИНЕ ПРИЗ­НАКА – ЭТО

1) коэффициент вариации

2) среднее квадратичное отклонение

4) коэффициент осцилляции

7. ОТНОШЕНИЕ СРЕДНЕГО КВАДРАТИЧНОГО ОТКЛОНЕНИЯ К СРЕД­НЕЙ ВЕЛИЧИНЕ ПРИЗНАКА – ЭТО

1) дисперсия

2) коэффициент вариации

3) коэффициент осцилляции

4) амплитуда

8. ВАРИАНТА, КОТОРАЯ НАХОДИТСЯ В СЕРЕДИНЕ ВАРИАЦИОН­НОГО РЯДА И ДЕЛИТ ЕГО НА ДВЕ РАВНЫЕ ЧАСТИ – ЭТО

1) медиана

3) амплитуда

9. В МЕДИЦИНСКИХ ИССЛЕДОВАНИЯХ ПРИ УСТАНОВЛЕНИИ ДОВЕ­РИТЕЛЬНЫХ ГРАНИЦ ЛЮБОГО ПОКАЗАТЕЛЯ ПРИНЯТА ВЕРОЯТ­НОСТЬ БЕЗОШИБОЧНОГО ПРОГНОЗА

10. ЕСЛИ 90 ВЫБОРОК ИЗ 100 ДАЮТ ПРАВИЛЬНУЮ ОЦЕНКУ ПАРА­МЕТРА В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ, ТО ЭТО ОЗНАЧАЕТ, ЧТО ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ P РАВНА

11. В СЛУЧАЕ, ЕСЛИ 10 ВЫБОРОК ИЗ 100 ДАЮТ НЕВЕРНУЮ ОЦЕНКУ, ВЕРОЯТНОСТЬ ОШИБКИ РАВНА

12. ГРАНИЦЫ СРЕДНИХ ИЛИ ОТНОСИТЕЛЬНЫХ ВЕЛИЧИН, ВЫХОД ЗА ПРЕДЕЛЫ КОТОРЫХ ВСЛЕДСТВИЕ СЛУЧАЙНЫХ КОЛЕБАНИЙ ИМЕЕТ НЕЗНАЧИТЕЛЬНУЮ ВЕРОЯТНОСТЬ – ЭТО

1) доверительный интервал

2) амплитуда

4) коэффициент вариации

13. МАЛОЙ ВЫБОРКОЙ СЧИТАЕТСЯ ТА СОВОКУПНОСТЬ, В КОТОРОЙ

1) n меньше или равно 100

2) n меньше или равно 30

3) n меньше или равно 40

4) n близко к 0

14. ДЛЯ ВЕРОЯТНОСТИ БЕЗОШИБОЧНОГО ПРОГНОЗА 95% ВЕЛИ­ЧИНА КРИТЕРИЯ t СОСТАВЛЯЕТ

15. ДЛЯ ВЕРОЯТНОСТИ БЕЗОШИБОЧНОГО ПРОГНОЗА 99% ВЕЛИ­ЧИНА КРИТЕРИЯ t СОСТАВЛЯЕТ

16. ДЛЯ РАСПРЕДЕЛЕНИЙ, БЛИЗКИХ К НОРМАЛЬНОМУ, СОВОКУП­НОСТЬ СЧИТАЕТСЯ ОДНОРОДНОЙ, ЕСЛИ КОЭФФИЦИЕНТ ВАРИА­ЦИИ НЕ ПРЕВЫШАЕТ

17. ВАРИАНТА, ОТДЕЛЯЮЩАЯ ВАРИАНТЫ, ЧИСЛОВЫЕ ЗНАЧЕНИЯ КОТОРЫХ НЕ ПРЕВЫШАЮТ 25% МАКСИМАЛЬНО ВОЗМОЖНОГО В ДАННОМ РЯДУ – ЭТО

2) нижний квартиль

3) верхний квартиль

4) квартиль

18. ДАННЫЕ, КОТОРЫЕ НЕ ИСКАЖАЮТ И ПРАВИЛЬНО ОТРАЖАЮТ ОБЪЕКТИВНУЮ РЕАЛЬНОСТЬ, НАЗЫВАЮТСЯ

1) невозможные

2) равновозможные

3) достоверные

4) случайные

19. СОГЛАСНО ПРАВИЛУ "ТРЕХ СИГМ", ПРИ НОРМАЛЬНОМ РАСПРЕ­ДЕЛЕНИИ ПРИЗНАКА В ПРЕДЕЛАХ
БУДЕТ НАХОДИТЬСЯ

1) 68,3% вариант

Кроме математического ожидания случайной величины которое. определяет положение центра распределения вероятностей, количественной характеристикой распределения случайной величины является дисперсия случайной величины

Дисперсию будем обозначать D [х] или .

Слово «дисперсиям означает рассеивание. Дисперсия является числовой характеристикой рассеивания, разброса значений случайной величины относительно ее математического ожидания.

Определение 1. Дисперсией случайной величины называется матемйтическое ожидание квадрата разности случайной величины и ее математического ожидания.(т. е. математическое ожидание квадрата соответствующей центрированной, случайной величины):

Дисперсия имеет размерность квадрата случайной величины. Иногда, для характеристики рассеивания, удобнее пользоваться величиной, размерйость которой совпадает с размерностью случайной величины. Такая величина - среднеквадратичное отклонение.

Определение 2. Среднеквадратичным отклонением случайной величины называется корень квадратный из ее дисперсии:

или в развернутом виде

Среднеквадратичное отклонение обозначают также

Замечание 1. При вычислении дисперсии формулу (1) бывает удобно преобразовать так:

т. е. дисперсия равна разности математического ожидания квадрата случайной величины и квадрата математического ожидания случайной величины.

Пример 1. Производится один выстрел по объекту. Вероятность попадания . Определить математическое ожидание, дисперсию и среднеквадратичное отклонение.

Решение. Строим таблицу значений числа попаданий

Следовательно,

Чтобы представить смысл понятия дисперсии и среднеквадратичного отклонения как характеристики рассеивания случайной величины, рассмотрим примеры.

Пример 2. Случайная величина задана следующим законом распределения (см. таблицу и рис. 413):

Пример 3. Случайная величина задана следующим законом распределения (см. таблицу и рис. 414):

Определить: 1) математическое ожидание, 2) дисперсию, 3) среднеквадратичное отклонение.

Рассеивание, разброс случайной величины в первом примере меньше рассеивания случайной величины во втором примере (см. рис. 414 и 415). Дисперсии этих величин соответственно равны 0,6 и 2,4.

Пример 4; Случайная величина задана следующим законом распределения (см. таблицу и рис. 415):

Если случайная величина распределена симметрично относительно центра распределения вероятностей (рис. 411), то очевидно, что ее центральный момент третьего порядка будет равен нулю. Если центральный момент третьего порядка отличен от нуля, то случайная величина не может быть распределена симметрично.

Полученные из опыта величины неизбежно содержат погрешности, обусловленные самыми разнообразными причинами. Среди них следует различать погрешности систематические и случайные. Систематические ошибки обусловливаются причинами, действующими вполне определенным образом, и могут быть всегда устранены или достаточно точно учтены. Случайные ошибки вызываются весьма большим числом отдельных причин, не поддающихся точному учету и действующих в каждом отдельном измерении различным образом. Эти ошибки невозможно совершенно исключить; учесть же их можно только в среднем, для чего необходимо знать законы, которым подчиняются случайные ошибки.

Будем обозначать измеряемую величину через А, а случайную ошибку при измерении х. Так как ошибка х может принимать любые значения, то она является непрерывной случайной величиной, которая вполне характеризуется своим законом распределения.

Наиболее простым и достаточно точно отображающим действительность (в подавляющем большинстве случаев) является так называемый нормальный закон распределения ошибок :

Этот закон распределения может быть получен из различных теоретических предпосылок, в частности, из требования, чтобы наиболее вероятным значением неизвестной величины, для которой непосредственным измерением получен ряд значений с одинаковой степенью точности, являлось среднее арифметическое этих значений. Величина 2 называется дисперсией данного нормального закона.

Среднее арифметическое

Определение дисперсии по опытным данным. Если для какой-либо величины А непосредственным измерением получено n значений a i с одинаковой степенью точности и если ошибки величины А подчинены нормальному закону распределения, то наиболее вероятным значением А будет среднее арифметическое :

a - среднее арифметическое,

a i - измеренное значение на i-м шаге.

Отклонение наблюдаемого значения (для каждого наблюдения) a i величины А от среднего арифметического : a i - a.

Для определения дисперсии нормального закона распределения ошибок в этом случае пользуются формулой:

2 - дисперсия,
a - среднее арифметическое,
n - число измерений параметра,

Среднеквадратическое отклонение

Среднеквадратическое отклонение показывает абсолютное отклонение измеренных значений от среднеарифметического . В соответствии с формулой для меры точности линейной комбинации средняя квадратическая ошибка среднего арифметического определяется по формуле:

, где


a - среднее арифметическое,
n - число измерений параметра,
a i - измеренное значение на i-м шаге.

Коэффициент вариации

Коэффициент вариации характеризует относительную меру отклонения измеренных значений от среднеарифметического :

, где

V - коэффициент вариации,
- среднеквадратическое отклонение,
a - среднее арифметическое.

Чем больше значение коэффициента вариации , тем относительно больший разброс и меньшая выравненность исследуемых значений. Если коэффициент вариации меньше 10%, то изменчивость вариационного ряда принято считать незначительной, от 10% до 20% относится к средней, больше 20% и меньше 33% к значительной и если коэффициент вариации превышает 33%, то это говорит о неоднородности информации и необходимости исключения самых больших и самых маленьких значений.

Среднее линейное отклонение

Один из показателей размаха и интенсивности вариации - среднее линейное отклонение (средний модуль отклонения) от среднего арифметического. Среднее линейное отклонение рассчитывается по формуле:

, где

_
a - среднее линейное отклонение,
a - среднее арифметическое,
n - число измерений параметра,
a i - измеренное значение на i-м шаге.

Для проверки соответствия исследуемых значений закону нормального распределения применяют отношение показателя асимметрии к его ошибке и отношение показателя эксцесса к его ошибке.

Показатель асимметрии

Показатель асимметрии (A) и его ошибка (m a) рассчитывается по следующим формулам:

, где

А - показатель асимметрии,
- среднеквадратическое отклонение,
a - среднее арифметическое,
n - число измерений параметра,
a i - измеренное значение на i-м шаге.

Показатель эксцесса

Показатель эксцесса (E) и его ошибка (m e) рассчитывается по следующим формулам:

, где

Инструкция

Пусть имеется несколько чисел, характеризующих -либо однородные величины. Например, результаты измереений, взвешиваний, статистических наблюдений и т.п. Все представленные величины должны измеряться одной и той же измерения. Чтобы найти квадратичное отклонение, проделайте следующие действия.

Определите среднее арифметическое всех чисел: сложите все числа и разделите сумму на общее количество чисел.

Определите дисперсию (разброс) чисел: сложите квадраты найденных ранее отклонений и разделите полученную сумму на количество чисел.

В палате лежат семь больных с температурой 34, 35, 36, 37, 38, 39 и 40 градусов Цельсия.

Требуется определить среднее отклонение от средней .
Решение:
« по палате»: (34+35+36+37+38+39+40)/7=37 ºС;

Отклонения температур от среднего (в данном случае нормального значения): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, получается: -3, -2, -1, 0, 1, 2, 3 (ºС);

Разделите полученную раннее сумму чисел на их количество. Для точности вычисления лучше воспользоваться калькулятором. Итог деления является средним арифметическим значением слагаемых чисел.

Внимательно отнеситесь ко всем этапам расчета, так как ошибка хоть в одном из вычислений приведет к неправильному итоговому показателю. Проверяйте полученные расчеты на каждом этапе. Среднее арифметическое число имеет тот же измеритель, что и слагаемые числа, то есть если вы определяете среднюю посещаемость , то все показатели у вас будут «человек».

Данный способ вычисления применяется только в математических и статистических расчетах. Так, например, среднего арифметического значения в информатике имеет другой алгоритм вычисления. Среднее арифметическое значение является очень условным показателем. Оно показывает вероятность того или иного события при условии, что у него только один фактор либо показатель. Для наиболее глубокого анализа необходимо учитывать множество факторов. Для этого применяется вычисление более общих величин.

Среднее арифметическое - одна из мер центральной тенденции, широко используемая в математике и статистических расчетах. Найти среднее арифметическое число для нескольких значений очень просто, но у каждой задачи есть свои нюансы, знать которые для выполнения верных расчетов просто необходимо.

Количественных результатов проведенных подобных опытов.

Как найти среднее арифметическое число

Поиск среднего арифметического числа для массива чисел следует начинать с определения алгебраической суммы этих значений. К примеру, если в массиве присутствуют числа 23, 43, 10, 74 и 34, то их алгебраическая сумма будет равна 184. При записи среднее арифметическое обозначается буквой μ (мю) или x (икс с чертой). Далее алгебраическую сумму следует разделить на количество чисел в массиве. В рассматриваемом примере чисел было пять, поэтому среднее арифметическое будет равно 184/5 и составит 36,8.

Особенности работы с отрицательными числами

Если в массиве присутствуют отрицательные числа, то нахождение среднего арифметического значения происходит по аналогичному алгоритму. Разница имеется только при рассчетах в среде программирования, или же если в задаче есть дополнительные условия. В этих случаях нахождение среднего арифметического чисел с разными знаками сводится к трем действиям:

1. Нахождение общего среднего арифметического числа стандартным методом;
2. Нахождение среднего арифметического отрицательным чисел.
3. Вычисление среднего арифметического положительных чисел.

Ответы каждого из действий записываются через запятую.

Натуральные и десятичные дроби

Если массив чисел представлен десятичными дробями, решение происходит по методу вычисления среднего арифметического целых чисел, но сокращение результата производится по требованиям задачи к точности ответа.

При работе с натуральными дробями их следует привести к общему знаменателю, который умножается на количество чисел в массиве. В числителе ответа будет сумма приведенных числителей исходных дробных элементов.

Мудрые математики и статистики придумали более надежный показатель, хотя и несколько другого назначения – среднее линейное отклонение . Этот показатель характеризует меру разброса значений совокупности данных вокруг их среднего значения.

Для того, чтобы показать меру разброса данных нужно вначале определиться, относительно чего этот самый разброс будет считаться - jбычно это средняя величина. Дальше нужно посчитать, насколько значения анализируемой совокупности данных находятся далеко от средней. Понятное дело, что каждому значению соответствует некоторая величина отклонения, но нас же интересует общая оценка, охватывающая всю совокупность. Поэтому рассчитывают среднее отклонение по формуле обычной средней арифметической. Но! Но для того, чтобы рассчитать среднее из отклонений, их нужно вначале сложить. И если мы сложим положительные и отрицательные числа, то они взаимоуничтожатся и их сумма будет стремиться к нулю. Чтобы этого избежать, все отклонения берутся по модулю, то есть все отрицательные числа становятся положительными. Вот теперь среднее отклонение будет показывать обобщенную меру разброса значений. В итоге, средне линейное отклонение будет рассчитываться по формуле:

a – среднее линейное отклонение,

x – анализируемый показатель, с черточкой сверху – среднее значение показателя,

n – количество значений в анализируемой совокупности данных,

оператор суммирования, надеюсь, никого не пугает.

Рассчитанное по указанной формуле среднее линейное отклонение отражает среднее абсолютное отклонение от средней величины по данной совокупности.

На картинке красная линия - это среднее значение. Отклонения каждого наблюдения от среднего указаны маленькими стрелочками. Именно они берутся по модулю и суммируются. Потом все делится на количество значений.

Для полноты картины нужно привести еще и пример. Допустим, имеется фирма по производству черенков для лопат. Каждый черенок должен быть 1,5 метра длиной, но, что еще важней, все должны быть одинаковыми или, по крайней мере, плюс-минус 5 см. Однако нерадивые работники то 1,2 м отпилят, то 1,8 м. Дачники недовольны. Решил директор фирмы провести статистический анализ длины черенков. Отобрал 10 штук и замерял их длину, нашел среднюю и рассчитал среднее линейное отклонение. Средняя получилась как раз, что надо – 1,5 м. А вот среднее линейное отклонение вышло 0,16 м. Вот и получается, что каждый черенок длиннее или короче, чем нужно в среднем на 16 см. Есть, о чем поговорить с работниками. На самом деле я не встречал реального использования данного показателя, поэтому пример придумал сам. Тем не менее, в статистике есть такой показатель.

Дисперсия

Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.

Формула для расчета дисперсии выглядит так:

(для вариационных рядов (взвешенная дисперсия))

(для несгруппированных данных (простая дисперсия))

Где: σ 2 – дисперсия, Xi – анализируемsq показатель (значение признака), – среднее значение показателя, f i – количество значений в анализируемой совокупности данных.

Дисперсия - это средний квадрат отклонений.

Сначала рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, умножается на частоту соответствующего значения признака, складывается и затем делится на количество значений в данной совокупности.

Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа.

Упрощенный способ расчета дисперсии

Среднеквадратическое отклонение

Чтобы использовать дисперсию дл анализа данных из нее извлекают квадратный корень. Получается так называемое среднеквадратическое отклонение .

Кстати, стандартное отклонение еще называют сигмой – от греческой буквы, которой его обозначают.

Среднеквадратическое отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными. Как правило, среднеквадратические показатели в статистике дают более точные результаты, чем линейные. Следовательно, среднеквадратическое отклонение является более точным показателем меры рассеяния данных, чем среднее линейное отклонение.