Меню

Мощностью критерия называют вероятность не допустить ошибку рода

Уровень значимости и мощность критерия. Ошибки первого и второго рода.

Проверяя гипотезы с помощью статистического критерия, может возникнуть одна из четырех ситуаций: 1) гипотеза H 0 истинна (и поэтому H 1 – ложна) и предпринимается действие А; 2) гипотеза H 1 истинна (и поэтому H 0 – ложна) и предпринимается действие А; 3) ) гипотеза H 0 истинна (и поэтому H 1 – ложна) и предпринимается действие В; 4) гипотеза H 1 истинна (и поэтому H 0 – ложна) и предпринимается действие В. В ситуациях 2 и 3 получается ошибка. Существует 2 типа ошибок. Ошибка, состоящая в принятии гипотезы H 0, когда она ложна (ошибка второго рода), качественно отличается от ошибки, состоящей в отвержении H 0, когда она истинна (ошибка первого рода). При этом числа α i = α i(δ) = P i(δ(X)≠ H i), характеризующие вероятность отвержения гипотезы H i, когда она верна, называют вероятностями ошибок (i+1)-го рода критерия δ. Набором вероятностей α i(δ) ошибочных решений характеризуется кач-вом критерия δ. Правильное решение также может быть принято двумя способами (ситуации 1 и 4): когда гипотеза H 0 принимается, ибо она верна, и когда гипотеза H 0 отвергается, ибо она ложна. В ситуации 1 не совершается ошибка первого рода, в ситуации 4 – второго рода.

Уровень значимости критерия не меняет степени риска, связанного с возможностью ошибки второго рода, т.е. с принятием неверной гипотезы. И при данном уровне значимости можно по-разному определить критическую область. Как правило, ее определяют так, чтобы мощность критерия 1 – α 1(δ) была возможно большей: P (X ] x 1; x 2[|H 1) = max. Мощностью критерия δ называется вероятность 1 – α 1(δ) несовершения ошибки второго рода. Чем больше мощность критерия, тем меньше вероятность принятия неверной гипотезы.

Критерий согласия Пирсона основан на выборе определенной меры расхождения между теоретическим и эмпирическим (полученным из эксперимента) распределениями. Причем задачу проверки согласованности теории с опытными данными можно сформулировать в следующем виде: имеется выборка х 1, х 2, …, х n наблюденных значений некоторой СВ Х. Требуется определить, что выборочное распределение принадлежит определенному распределению (нормальному, биномиальному, показательному и т.д.) – гипотеза Н 0 против альтернативной гипотезы Н 1 – распределение не принадлежит выбранному распределению. Допустим вначале, что гипотеза Н 0 полностью определяет вид функции Р, и вероятность P(x j S i) может быть вычислена для любого заданного мн-ва S 1, S 2, …, S k – это либо интервалы для непрерывной СВ, либо группы отдельных значений дискретной СВ, не имеющие общих точек. Пусть p i = P(x j S i) – вероятность того, что СВ Х принимает значения, принадлежащие мн-ву S i и =1, причем все p i>0, i = . Соответствующие групповые частоты в выборке m 1, m 2, …, m k, т.е. m i – это число значений СВ Х из выборки, попавших в S i. Ясно, что =n. Если проверяемая гипотеза Н 0 верна, то распределение выборки можно рассматривать как статистический аналог для генерального распределения, определяемого функцией р(х). Это значит, что m i представляет собой частоту появления события с вероятностью p i = P(S i) в нашей последовательности из n наблюдений. Следовательно, любое мн-во S i имеет в первом распределении относительные частоты m i/n, а во втором – вероятности p i. Тогда, согласно методу наименьших квадратов, за меру расхождения между распределением выборки и теоретическим распределением примем величину C i(m i/n — p i) 2 , где C i – произвольный коэффициент. Пирсон доказал, что если C i = n/ p i, то получится мера расхождения вида χ 2 = , такая, что при увеличении объема выборки выборочное рапределение величины χ 2 стремится к предельному распределению χ 2 с υ = κ – r – 1 степенями свободы ( к – число интервалов или групп, на кторые разбито все мн-во наблюденных данных, r – число параметров гипотетического распределения вероятностей Р, оцениваемых по данным выборки). Это утверждение следует из того, что если гипотеза Н 0 верна, то совместным распределением групповых частот m i, i = , является простое обощение биномиального распределения, и тогда случайные величины X i = (m i — np i)/ нормально распределены, а их сумма квадратов χ 2 = имеет распределение χ 2 с υ = κ – r – 1 степенями свободы. Для того, чтобы величина критерия приближенно имела χ 2 -распределение, теоретические частоты np i должны быть не слишком малыми.

Читайте также:  Мощность трансформатора питающей подстанции

Источник



Ошибки I и II рода при проверке гипотез, мощность

Общий обзор

Большинство проверяемых гипотез сравнивают между собой группы объектов, которые испытывают влияние различных факторов.

Например, можно сравнить эффективность двух видов лечения, чтобы сократить 5-летнюю смертность от рака молочной железы. Для данного исхода (например, смерть) сравнение, представляющее интерес (напри­мер, различные показатели смертности через 5 лет), называют эффектом или, если уместно, эффектом лечения.

Нулевую гипотезу выражают как отсутствие эффекта (например 5-летняя смертность от рака мо­лочной железы одинаковая в двух группах, получаю­щих разное лечение); двусторонняя альтернативная гипотеза будет означать, что различие эффектов не равно нулю.

Критериальная проверка гипотезы дает возможность определить, достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу. Можно принять только одно из двух решений:

  1. отвергнуть нулевую гипотезу и принять альтер­нативную гипотезу
  2. остаться в рамках нулевой гипотезы

Важно: В литературе достаточно часто встречается понятие «принять нулевую гипотезу». Хотелось бы внести ясность, что со статистической точки зрения принять нулевую гипотезу невозможно, т.к. нулевая гипотеза представляет собой достаточно строгое утверждение (например, средние значения в сравниваемых группах равны ).

Поэтому фразу о принятии нулевой гипотезы следует понимать как то, что мы просто остаемся в рамках гипотезы.

Принятие неправильного решения

Возможно неправильное решение, когда отвергают/не отвергают нулевую гипотезу, потому что есть только выборочная информация.

Верная гипотеза
H H1
Результат
применения
критерия
H H верно принята H неверно принята
(Ошибка второго рода)
H1 H неверно отвергнута
(Ошибка первого рода)
H верно отвергнута

Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет. Максимальный шанс (вероятность) допустить ошибку 1-го рода обозначается α (альфа). Это уровень значимости критерия; нулевую гипотезу отвергают, если наше значение p ниже уровня значимости, т. е., если p 0,05, то нулевую гипотезу не отвергнут и, следовательно, не допустят ошибки 1-го рода.

Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует. Шанс возникновения ошибки 2-го рода обозначается β (бета); а величина (1-β) называется мощностью критерия.

Следовательно, мощность — это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.

В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода.

К счастью, известно, какие факторы влияют на мощность и, таким образом, можно контролировать мощность критерия, рассматривая их.

Читайте также:  Характеристика графика активной мощности

Мощность и связанные факторы

Планируя исследование, необходимо знать мощность предложенного критерия. Очевидно, можно начинать исследование, если есть «хороший» шанс обнаружить уместный эффект, если таковой существует (под «хорошим» мы подразумеваем, что мощность должна быть по крайней мере 70-80%).

Этически безответственно начинать исследование, у которого, скажем, только 40% вероятности обнаружить реальный эффект лечения; это бесполезная трата времени и денежных средств.

Ряд факторов имеют прямое отношение к мощности критерия.

Объем выборки: мощность критерия увеличивается по мере увеличения объема выборки. Это означает, что у большей выборки больше возможностей, чем у незначительной, обнаружить важный эффект, если он существует.

Когда объем выборки небольшой, у критерия может быть недостаточно мощности, чтобы обнаружить отдельный эффект. Эти методы также можно использовать для оценки мощности критерия для точно установленного объема выборки.

Вариабельность наблюдений: мощность увеличивается по мере того, как вариабельность наблюдений уменьшается.

Интересующий исследователя эффект: мощность критерия больше для более высоких эффектов. Критерий проверки гипотез имеет больше шансов обнаружить значительный реальный эффект, чем незначительный.

Уровень значимости: мощность будет больше, если уровень значимости выше (это эквивалентно увеличению допущения ошибки 1-го рода, α, а допущение ошибки 2-го рода, β, уменьшается).

Таким образом, вероятнее всего, исследователь обнаружит реальный эффект, если на стадии планирования решит, что будет рассматривать значение р как значимое, если оно скорее будет меньше 0,05, чем меньше 0,01.

Обратите внимание, что проверка ДИ для интересующего эффекта указывает на то, была ли мощность адекватной. Большой доверительный интервал следует из небольшой выборки и/или набора данных с существенной вариабельностью и указывает на недостаточную мощность.

Проверка множественных гипотез

Часто нужно выполнить критериальную проверку значимости множественных гипотез на наборе данных с многими переменными или существует более двух видов лечения.

Ошибка 1-го рода драматически увеличивается по мере увеличения числа сравнений, что приводит к ложным выводам относительно гипотез. Следовательно, следует проверить только небольшое число гипотез, выбранных для достижения первоначальной цели исследования и точно установленных априорно.

Можно использовать какую-нибудь форму апостериорного уточнения значения р, принимая во внимание число выполненных проверок гипотез.

Например, при подходе Бонферрони (его часто считают довольно консервативным) умножают каждое значение р на число выполненных проверок; тогда любые решения относительно значимости будут основываться на этом уточненном значении р.

Источник

Уровень значимости. Мощность критерия. Ошибки первого и второго рода

В результате проверки статистической гипотезы могут возникнуть четыре ситуации:

  • гипотеза на самом деле истинна и принимается согласно критерию ;
  • гипотеза на самом деле истинна и принимается согласно критерию ;
  • гипотеза на самом деле истинна, но отвергается согласно критерию ( ошибка первого рода);.
  • гипотеза на самом деле истинна, но отвергается согласно критерию ( ошибка второго рода).

Первые два случая описывают правильные заключения, а последние два -ошибочные заключения, возникающие при проверке статистических гипотез.

Вероятность ошибки первого рода называется уровнем значимостиданного критерия. Обычно уровень значимости принимают равным 0.1, 0.05, 0.01, 0.001. Для дискретных случайных величин заданный уровень значимости указывает верхнюю границу для вероятности ошибки первого рода.

Функцией мощности критерияназывается функция, которая позволяет при заданной функции распределения вычислить вероятность того, что нулевая гипотеза будет отвергнута. Зная функцию мощности критерия можно вычислить вероятности ошибок первого и второго рода. К сожалению, найти функцию мощности критерия удается крайне редко.

Читайте также:  Форсунки для увеличения мощности

По характеру проявления

· Случайная погрешность — составляющая погрешности измерения, изменяющаяся случайным образом в серии повторных измерений одной и той же величины, проведенных в одних и тех же условиях.

· Систематическая погрешность — погрешность, изменяющаяся во времени по определённому закону (частным случаем является постоянная погрешность, не изменяющаяся с течением времени). Систематические погрешности могут быть связаны с ошибками приборов (неправильная шкала, калибровка и т. п.), неучтёнными экспериментатором.

Систематическую ошибку нельзя устранить повторными измерениями. Её устраняют либо с помощью поправок или «улучшением» эксперимента.

· Прогрессирующая (дрейфовая) погрешность — непредсказуемая погрешность, медленно меняющаяся во времени. Она представляет собой нестационарный случайный процесс.

· Грубая погрешность (промах) — погрешность, возникшая вследствие недосмотра экспериментатора или неисправности аппаратуры (например, если экспериментатор неправильно прочёл номер деления на шкале прибора или если произошло замыкание в электрической цепи).

По способу измерения

· Погрешность прямых измерений — вычисляется по формуле

где : ; — стандартная ошибка среднего (выборочное СКО, деленное на корень из количества измерений ), а — квантиль распределения Стьюдента для числа степеней свободы и уровня значимости ; — абсолютная погрешность средства измерения (обычно это число равное половине цены деления измерительного прибора).

· Погрешность косвенных воспроизводимых измерений — погрешность вычисляемой (не измеряемой непосредственно) величины:

Если , где — непосредственно измеряемые независимые величины, имеющие погрешность , тогда:

· Погрешность косвенных невоспроизводимых измерений — вычисляется по принципу прямой погрешности, но вместо ставится значение полученное в процессе расчётов.

По причине возникновения

· Инструментальные / приборные погрешности — погрешности, которые определяются погрешностями применяемых средств измерений и вызываются несовершенством принципа действия, неточностью градуировки шкалы, ненаглядностью прибора.

· Методические погрешности — погрешности, обусловленные несовершенством метода, а также упрощениями, положенными в основу методики.

· Субъективные / операторные / личные погрешности — погрешности, обусловленные степенью внимательности, сосредоточенности, подготовленности и другими качествами оператора.

Основные принципы выбора СИ сводятся к следующим положениям:

I. Для гарантирования заданной или расчетной относительной погрешности измерения д и относительная погрешность СИ д СИ должна быть на 25-30% ниже, чем д и: д СИ=0,7 д и.

Если известна приведенная погрешность измерения г и, то приведенная погрешность СИ:

где х и х N — результат измерения и нормированное значение шкалы СИ.

II. Выбор СИ зависит от масштаба производства или находящихся в эксплуатации однотипных ТС. В массовом производстве с отработанным технологическим процессом используют высокопроизводительные механизированные и автоматизированные СИ и контроля. Универсальные СИ применяют преимущественно для наладки оборудования.

В серийном производстве основными средствами контроля должны быть жесткие предельные калибры, шаблоны, специальные контрольные приспособления. Возможно применения универсальных СИ.

В мелкосерийном и индивидуальном производстве основными являются универсальные СИ, поскольку применение других организационно и экономически невыгодно.

III. При выборе СИ по МХ необходимо учитывать следующее:

— Если технологический процесс неустойчив, т.е. возможны существенные отклонения измеряемого параметра за пределы пол допуска, то нужно, чтобы пределы шкалы СИ превышали диапазон рассеяния значений параметра;

— Цена деления шкалы должна выбираться с учетом заданной точности измерения. Например, если размер необходимо контролировать с точностью до 0,01 мм, то и СИ необходимо выбирать с ценой деления 0,01 мм, т.к. СИ с более грубой шкалой внесет дополнительные субъективные погрешности, а с более точной — выбирать не имеет смысла из-за удорожания СИ.

Источник

Adblock
detector