Меню

Статистическая мощность статистическая чувствительность

Вычисление чувствительности (статистической мощности) и объёма
при сравнении долей двух независимых выборок

НЦ БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами НЦ пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )

Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных

Островок здоровья

Пример «ПРОГРАММА РАБОТ по статистическому анализу» базы данных Исследователя. Леонов В.П. . При этом содержание подобных «ПРОГРАММ. » определяются приводимыми 5-ю деталями . . В данном примере «ПРОГРАММЫ. » приводится 22 БЛОКА по конкретным методам анализа и графикам.

Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал медицинской практики, 2007, вып. 2, стр.19-35.

НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов . Вестник Томского государственного университета, Серия «Математика. Кибернетика. Информатика», №275. АПРЕЛЬ 2002, стр. 17-24 .

В.П. Леонов. Камуфляжные мемы инфоценоза научных школ // Философия математики: актуальные проблемы. Материалы Международной научной конференции 15-16 июня 2007. Москва, Изд. Саван С. А., 2007. — с. 212-216.

Очередной отзыв о нашем сотрудничестве Корнеевой Н.В., доцента кафедры факультетской терапии ДВГМУ г. Хабаровск.

Наш адрес 1997 — 2020. © Василий Леонов

Источник



Нежное введение в статистический анализ мощности и мощности в Python

Дата публикации 2018-07-13

Статистическая сила теста гипотезы — это вероятность обнаружения эффекта, если для обнаружения присутствует настоящий эффект.

Мощность может быть рассчитана и сообщена для завершенного эксперимента, чтобы прокомментировать уверенность, которую можно было бы получить в выводах, сделанных по результатам исследования. Он также может использоваться в качестве инструмента для оценки количества наблюдений или размера выборки, необходимых для обнаружения эффекта в эксперименте.

В этом руководстве вы откроете для себя важность статистической мощности теста гипотезы, а теперь вычисляете анализ мощности и кривые мощности как часть экспериментального проекта.

После завершения этого урока вы узнаете:

  • Статистическая мощность — это вероятность проверки гипотезы о том, что эффект найден, если эффект найден.
  • Анализ мощности может использоваться для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
  • Как рассчитать и построить анализ мощности для t-теста Стьюдента в Python, чтобы эффективно спланировать эксперимент.

Обзор учебника

Этот урок разделен на четыре части; они есть:

  1. Статистическая проверка гипотез
  2. Что такое статистическая сила?
  3. Анализ мощности
  4. Анализ силы t-критерия Стьюдента

Статистическая проверка гипотез

Тест статистической гипотезы делает предположение о результате, называемом нулевой гипотезой.

Например, нулевая гипотеза для корреляционного теста Пирсона состоит в том, что нет никакой связи между двумя переменными. Нулевая гипотеза для критерия Стьюдента состоит в том, что нет разницы между средствами двух групп населения.

Тест часто интерпретируется с использованием p-значения, которое представляет собой вероятность наблюдения результата, учитывая, что нулевая гипотеза верна, а не обратная, как это часто бывает с неправильными интерпретациями.

  • р-значение (р): Вероятность получения результата, равного или более экстремального, чем наблюдалось в данных.

При интерпретации p-значения критерия значимости необходимо указать уровень значимости, часто называемый греческой строчной буквой alpha (a). Общим значением для уровня значимости является 5%, записанное как 0,05.

Значение p интересует контекст выбранного уровня значимости. Результатом теста значимости считается «статистически значимый”Если значение p меньше уровня значимости. Это означает, что нулевая гипотеза (что нет результата) отклоняется.

  • p & lt; = альфа: отклонить H0, другое распределение.
  • p & gt; альфа: не удается отклонить H0, то же распределение.
  • Уровень значимости (альфа): Граница для определения статистически значимого результата при интерпретации значения p.

Мы можем видеть, что значение p является просто вероятностью и что в действительности результат может быть другим. Тест может быть неверным. Учитывая р-значение, мы могли бы сделать ошибку в нашей интерпретации.

Есть два типа ошибок; они есть:

  • Ошибка типа I, Отклонить нулевую гипотезу, когда на самом деле нет значительного эффекта (ложное срабатывание). Значение р оптимистично мало.
  • Ошибка типа II, Не отвергайте нулевую гипотезу, когда есть значительный эффект (ложноотрицательный). Значение p пессимистически велико.

В этом контексте мы можем думать об уровне значимости как о вероятности отклонения нулевой гипотезы, если бы она была верной. Это вероятность ошибки типа I или ложного срабатывания.

Что такое статистическая сила?

Статистическая сила или сила проверки гипотезы — это вероятность того, что проверка правильно отклоняет нулевую гипотезу.

То есть вероятность истинно положительного результата. Это полезно только тогда, когда нулевая гипотеза отвергается.

… Статистическая сила — это вероятность того, что тест правильно отклонит ложную нулевую гипотезу. Статистическая сила имеет значение только тогда, когда ноль ложен.

Чем выше статистическая мощность для данного эксперимента, тем ниже вероятность ошибки типа II (ложноотрицательная). Это выше вероятность обнаружения эффекта, когда есть эффект. На самом деле, мощность точно обратна вероятности ошибки типа II.

Читайте также:  Мощность тягача не меньше

Более интуитивно, статистическая сила может рассматриваться как вероятность принятия альтернативной гипотезы, когда альтернативная гипотеза верна.

При интерпретации статистической мощности мы ищем экспериментальные установки, которые имеют высокую статистическую мощность.

  • Низкая статистическая мощность: Большой риск совершения ошибок типа II, например, ложный минус.
  • Высокая статистическая мощность: Небольшой риск совершения ошибок типа II

Экспериментальные результаты со слишком низкой статистической мощностью приведут к неверным выводам о значении результатов. Поэтому необходимо искать минимальный уровень статистической мощности.

Обычно планируют эксперименты со статистической мощностью 80% или лучше, например 0,80. Это означает 20% вероятности столкновения с областью типа II. Это отличается от 5% вероятности возникновения ошибки типа I для стандартного значения уровня значимости.

Анализ мощности

Статистическая сила — это одна часть головоломки, которая состоит из четырех взаимосвязанных частей; они есть:

  • Размер эффекта, Количественная величина результата, присутствующего в популяции. Размер эффекта рассчитывается с использованием определенной статистической меры, такой как коэффициент корреляции Пирсона для взаимосвязи между переменными или d Коэна для разницы между группами.
  • Размер образца, Количество наблюдений в выборке.
  • Значимость, Уровень значимости, используемый в статистическом тесте, например, альфа. Часто устанавливается на 5% или 0,05.
  • Статистическая мощность, Вероятность принятия альтернативной гипотезы, если она верна.

Все четыре переменные связаны между собой. Например, больший размер выборки может облегчить обнаружение эффекта, а статистическая мощность в тесте может быть увеличена путем уменьшения уровня значимости.

Анализ мощности включает в себя оценку одного из этих четырех параметров с заданными значениями для трех других параметров. Это мощный инструмент как при разработке, так и при анализе экспериментов, который мы хотим интерпретировать с помощью статистических тестов гипотез.

Например, статистическая мощность может быть оценена с учетом размера эффекта, размера выборки и уровня значимости. Альтернативно, размер выборки может быть оценен с учетом различных желаемых уровней значимости.

Анализ силы отвечает на такие вопросы, как «какая статистическая мощность у моего исследования?» И «какой объем выборки мне нужен?».

Возможно, наиболее распространенное использование энергетического анализа заключается в оценке минимального размера выборки, необходимого для эксперимента.

Анализ мощности обычно проводится перед проведением исследования. Предполагаемый или априорный анализ мощности может использоваться для оценки любого из четырех параметров мощности, но чаще всего используется для оценки требуемых размеров выборки.

Как практик, мы можем начать с разумных значений по умолчанию для некоторых параметров, таких как уровень значимости 0,05 и уровень мощности 0,80. Затем мы можем оценить желаемый минимальный размер эффекта, характерный для проводимого эксперимента. Затем можно использовать анализ мощности для оценки минимального требуемого размера выборки.

Кроме того, можно провести многократный анализ мощности, чтобы получить кривую зависимости одного параметра от другого, такого как изменение размера эффекта в эксперименте с учетом изменения размера выборки. Могут быть созданы более сложные графики, варьирующиеся по трем параметрам. Это полезный инструмент для экспериментального дизайна.

Анализ силы t-критерия Стьюдента

Мы можем конкретизировать идею статистической мощности и анализа мощности на проработанном примере.

В этом разделе мы рассмотрим t-критерий Стьюдента, который является статистическим тестом гипотезы для сравнения средних значений двух выборок гауссовых переменных. Предположение или нулевая гипотеза теста состоит в том, что выборочные популяции имеют одинаковое среднее значение, например что нет никакой разницы между выборками или что образцы взяты из одной и той же популяции.

Тест вычислит p-значение, которое может быть интерпретировано относительно того, являются ли выборки одинаковыми (не в состоянии отклонить нулевую гипотезу), или существует статистически значимая разница между выборками (отклонить нулевую гипотезу). Общий уровень значимости для интерпретации значения p составляет 5% или 0,05.

  • Уровень значимости (альфа): 5% или 0,05.

Размер эффекта сравнения двух групп можно определить количественно с помощью меры размера эффекта. Распространенной мерой для сравнения разницы в среднем по двум группам является мера Коэна. Он рассчитывает стандартную оценку, которая описывает разницу с точки зрения количества стандартных отклонений, что средства разные. Большой размер эффекта для d Коэна составляет 0,80 или выше, что обычно принимается при использовании меры.

  • Размер эффекта: D Коэна не менее 0,80.

Мы можем использовать значение по умолчанию и принять минимальную статистическую мощность в 80% или 0,8.

  • Статистическая мощность: 80% или 0,80.

Для данного эксперимента с этими значениями по умолчанию нас может заинтересовать оценка подходящего размера выборки. То есть сколько наблюдений требуется от каждой выборки, чтобы по крайней мере обнаружить эффект 0 80 с вероятностью 80% обнаружения эффекта, если он истинный (20% ошибки типа II), и вероятностью 5% обнаружения эффекта, если такого эффекта нет (ошибка типа I).

Читайте также:  Dykemann friseur h44 мощность

Мы можем решить это с помощью анализа мощности.

Библиотека statsmodels предоставляетTTestIndPowerкласс для расчета энергетического анализа для теста Стьюдента с независимыми образцами. Следует отметить, чтоTTestPowerкласс, который может выполнить тот же анализ для парного теста Стьюдента.

Функцияsolve_power ()может быть использован для расчета одного из четырех параметров в анализе мощности. В нашем случае мы заинтересованы в расчете размера выборки. Мы можем использовать функцию, предоставив три части информации, которую мы знаем (альфа,эффект, а такжемощность) и установить размер аргумента, который мы хотим вычислить ответ (nobs1) к «Никто«. Это говорит функции, что рассчитать.

Примечание о размере выборки: у функции есть аргумент под названием ratio, который представляет собой отношение количества выборок в одной выборке к другой. Если ожидается, что обе выборки будут иметь одинаковое количество наблюдений, тогда коэффициент будет равен 1,0. Если, например, ожидается, что вторая выборка будет иметь вдвое меньше наблюдений, то отношение будет 0,5.

Экземпляр TTestIndPower должен быть создан, тогда мы можем вызватьsolve_power ()с нашими аргументами, чтобы оценить размер выборки для эксперимента.

Полный пример приведен ниже.

При выполнении примера вычисляется и печатается примерное количество образцов для эксперимента как 25. Это будет рекомендуемое минимальное количество образцов, необходимое для получения эффекта желаемого размера.

Мы можем пойти еще дальше и рассчитать кривые мощности.

Кривые мощности — это линейные графики, которые показывают, как изменение переменных, таких как размер эффекта и размер выборки, влияет на мощность статистического теста.

функция plot_power ()может быть использован для создания кривых мощности. Зависимая переменная (ось x) должна быть указана по имени в ‘dep_var‘Аргумент. Массивы значений могут быть указаны для размера выборки (Nobs), размер эффекта (effect_size) и значение (альфа) параметры. Затем будет построена одна или несколько кривых, показывающих влияние на статистическую мощность.

Например, мы можем принять значение 0,05 (значение по умолчанию для функции) и исследовать изменение размера выборки между 5 и 100 при низких, средних и высоких эффектах.

Полный пример приведен ниже.

При выполнении примера создается график, показывающий влияние на статистическую мощность (ось Y) для трех разных размеров эффекта (эс), поскольку размер выборки (ось X) увеличивается.

Мы можем видеть, что, если мы заинтересованы в большом эффекте, точка снижения доходности с точки зрения статистической мощности возникает в пределах 40-50 наблюдений.

Полезно, statsmodels имеетклассы для выполнения анализа мощностис другими статистическими тестами, такими как F-тест, Z-тест и критерий хи-квадрат.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

  • Постройте кривые мощности различных стандартных уровней значимости в зависимости от размера выборки.
  • Найдите пример исследования, которое сообщает статистическую силу эксперимента.
  • Подготовьте примеры анализа производительности для других статистических тестов, предоставляемых statsmodels.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

документы

книги

  • Основное руководство по размерам эффектов: статистическая мощность, мета-анализ и интерпретация результатов исследований, 2010.
  • Понимание новой статистики: размеры эффектов, доверительные интервалы и метаанализ2011
  • Статистический анализ мощности для поведенческих наук1988
  • Прикладной анализ мощности для поведенческих наук, 2010.
  • Statsmodels Расчет мощности и размера выборки
  • statsmodels.stats.power.TTestPower API
  • statsmodels.stats.power.TTestIndPower
  • API statsmodels.stats.power.TTestIndPower.solve_power ()
    API statsmodels.stats.power.TTestIndPower.plot_power ()
  • Статистическая мощность в Statsmodels, 2013.
  • Графики власти в стат-моделях, 2013.

статьи

  • Статистическая мощность в Википедии
  • Статистическая проверка гипотез в Википедии
  • Статистическая значимость в Википедии
  • Определение размера выборки в Википедии
  • Размер эффекта в Википедии
  • Ошибки типа I и типа II в Википедии

Резюме

В этом уроке вы обнаружили статистическую мощность теста гипотез и способы расчета анализа мощности и кривых мощности как части экспериментального проекта.

В частности, вы узнали:

  • Статистическая мощность — это вероятность проверки гипотезы о том, что эффект найден, если эффект найден.
  • Анализ мощности может использоваться для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
  • Как рассчитать и построить анализ мощности для t-теста Стьюдента в Python, чтобы эффективно спланировать эксперимент.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

9.Что такое статистическая мощность исследования и от чего она зависит?

Нужно ли исследователю учитывать её при планировании исследования, и

если да, то как это сделать?

Статистическая мощность анализа (1-β): вероятность того, что мы на выборке примем гипотезу H1, если на самом деле она верна (= шанс обнаружить эффект, если он на самом деле есть).

• Размер эффекта, пример: Корреляция между приёмом аспирина и снижением риска сердечного приступа: r = 0.034, r2 = 0.0012. Но это значит, что 34 человека из 1000 могут предотвратить приступ, принимая аспирин.

Читайте также:  Формула 1 объем двигателя мощность двигателя

Статистическая мощность зависит от…

– объёма выборки: чем он больше, тем она выше;

– размера эффекта: чем он сильнее, тем она выше;

– от используемого статистического критерия: для разных статистических критериев, проверяющих одну и ту же гипотезу, она будет разной.

• Является критерием для определения объёма выборки с учётом размера ожидаемого эффекта.

• Важно! Только высокая мощность (0,95 и выше) даёт нам возможность делать достоверный вывод о том, что искомый эффект отсутствует (верна H0).

• При недостаточной статистической мощности подобный вывод является необоснованным (правильный вывод: мы не обнаружили эффект, но не можем сказать, есть он или нет).

Анализ статистической мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.

В спец.программах, например во вражеской Statistika есть специальный модуль — Анализ мощности. Тут доступны графические и аналитические процедуры, позволяющие оценить мощность и объем выборки различных процедур статистического анализа.

Назовем исходную гипотезу «нулевая гипотеза» — H0 . Соберем данные. Используя статистическую теорию, видим, что гипотеза H0, вероятно, неверна и должна быть отвергнута.

Отвергая H0, вы обосновываете то, во что действительно верите. Эта ситуация, типичная во многих областях приложения, называется критерий отвержения-принятия — «Reject-Support testing,» (RS testing); отвергая нулевую гипотезу, вы подтверждаете теорию.

Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:

HO H1
H0 Правильное принятие Ошибка II рода
H1 Ошибка I рода Правильное отвержение

Заметим, что имеются ошибки двух типов, показанные в этой таблице. Авторы многих учебников обычно придерживаются такой точки зрения, что Ошибка I рода должна принимать значение .05 или ниже, тогда как Ошибка II рода должна быть столь малой, насколько это возможно при фиксированном уровне ошибки 1 рода. «Статистическая мощность», которая равна 1 — , соответственно, должна быть максимально высокой. ( у Жени в презентации – 0,95)

Например, в двухгрупповом эксперименте, включающем сравнение средних в двух группах — экспериментальной и контрольной, исследователь верит, что лекарство приносит эффект и ищет подтверждение своим предположениям с помощью критерия, который значимо отвергает нулевую гипотезу, состоящую в том, что эффекта нет (средние равны).

В таком исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.

В некоторых случаях просто невозможно иметь дело с очень большими выборками — с такой ситуацией мы сталкиваемся, например, в социальных или психологических исследованиях. В таких задачах исследователи иногда тратят несколько дней на то, чтобы получить интервью одного человека. В результате в течение года можно обследовать 50 субъектов. Корреляционные критерии в таких случаях имеют очень низкую мощность (так как объем выборки слишком мал). В таких случаях лучше взять значение выше .05, тогда требуемая мощность может быть достигнута.

С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.

Оценка мощности. При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить разумные отклонения от нулевой гипотезы

Факторы, влияющие на мощность статистических тестов. (повторение мать учения): Важно какой именно статистический критерий применяется. Некоторые статистические тесты по своей природе имеют большую мощность, чем другие. Важен объем выборки (количество наблюдений, на основании которых делается вывод). Вообще говоря, чем больше объем данных, тем больше мощность. Однако увеличение числа наблюдений связано с финансовыми и временными затратами. Следовательно, важно сделать объем выборки «разумно большим». Величина экспериментальных эффектов. Уровень ошибки в экспериментальных измерениях. Ошибка измерения интерпретируется как «шум», который может скрыть «сигнал» в реальных экспериментах. Следовательно, все действия, улучшающие точность и надежность измерения, могут увеличить статистическую мощность.

Источник

Adblock
detector