M.Bland
Размер выборки требуется определить перед началом большинства количественных исследований. Определение размера выборки не требуется для качественных исследований (обратите внимание, что здесь понимаются формально количественные методы, такие как контент-анализ; простые описательные проекты относятся к количественным). Расчет размера выборки может не выполнять перед проведением предварительных, пилотных исследований (однако такие исследования обычно выполняются перед реальным планированием научного исследования). В случае сомнений, обязательно обратитесь в то учреждение, которое финансирует исследование или включает его в свой план исследований - отсутствие данные о размере выборки одна из наиболее частых причин отказа в утверждении темы
При проведении исследований, которые определяют распространенность некоей характеристики в популяции (например, распространенность астмы у детей), расчет размера выборки необходим для того, чтобы полученные оценки имели желаемую степень точности. Например, распространенность заболевания в 10%, полученная на выборке размером в 20 человек будет иметь 95% доверительный интервал от 1% до 31%, что никак нельзя признать ни точно, ни информативной оценкой. С другой стороны, распространенность заболевания в 10%, полученная на выборке размером в 400 человек будет иметь 95% доверительный интервал от 7% до 13%, что может рассматриваться, как достаточно точный результат. оценка размеров выборки позволяет избежать первого из этих двух вариантов.
В исследованиях, направленных на выявление эффекта (например, разность эффективности двух методов лечения, относительный риск заболевания при наличии или отсутствии фактора риска) оценка размера выборки важна для того, чтобы удостовериться в том, что если клинически или биологически важный эффект существует , то он с высокой степенью вероятности будет обнаружен, иными словами анализ даст статистически значимые результаты. Если размер выборки невелик то даже в случае значительных различий между группами будет невозможно доказать, что они являются следствием чего-то иного, кроме как выборочной вариабельности.
Обычно рекомендуется, чтобы при расчете размера выборки была бы получена консультация биостатистика
Методы оценки размера выборки описаны в ряде учебников по статистике, включая Altman, 1991; Bland, 2000; Armitage, Berry и Matthews, 2002. Две книги специализируются на описании методов оценки размеров выборки в разных ситуациях. Для качественных параметров следует проконсультироваться с работой Manchin и соавт. (1998), для качественных - Lemeshow и соавт. (1996). В обеих книгах приведены таблицы, облегчающие расчет размеров выборки. В случае последовательных испытаний, необходимо обратиться к работе Whitehead (1997).Собственно расчеты размера выборки могут быть выполнены с использованием одной из многочисленных компьютерных программ. Так, программа Stata позволяет анализировать размер выборки, необходимый для сравнения средних и пропорций, а также анализа распространенности. Значительно большее количество опций предлагают специализированные пакеты, такие как nQuery Advisor или UnifyPow.
Расчет размера выборки зависит от следующих факторов, которые надо будет сообщить статистику-консультанту:
При этом потребуется ответить на ряд дополнительных вопросов:
Следует принять во внимание, что нерандомизированные исследования различий или взаимосвязей обычно требуют значительно больший размер выборки для того, чтобы принять во внимание при анализе влияние третьих переменных. При этом исследователя интересует абсолютный размер выборки, а не процент, который она составляет от популяции в целом.
Многие типы статистического анализа направлены на сравнение двух видов лечения, процедур или групп пациентов. Численное значение, которое суммирует интересующие исследователя различия называется эффектом. В других исследованиях эффектом может являться коэффициент корреляции, отношение шансов или относительный риск. Затем мы выдвигаем нулевую и альтернативную гипотезы. Обычно нулевая гипотеза гласит, что эффекта нет (различия между группами равны нулю, относительный риск равен единице, корреляционный коэффициент равен нулю), альтернативная гипотеза предполагает, что эффект есть.
р-оценка это вероятность наблюдения в исследовании такого же или более сильного эффекта при условии справедливости нулевой гипотезы. Обычно выражается как пропорция (например, р=0.03)
Уровень значимости - это пороговое значение для р-оценки, ниже которого нулевая гипотеза должна быть отвергнута и сделано заключение о том, что имеются доказательства эффекта. Обычно уровень значимости устанавливается на значении 5% (Уровень значимости, несмотря на прямую связь с р-оценкой выражается в процентах: 5% уровень значимости эквивалентен р=0.05). Если наблюдаемой значение меньше 5%, то имеется незначительная вероятность, что в исследовании были бы получены такие результаты, если бы истинного эффекта не было. Поэтому принимается гипотеза о наличии эффекта
Уровень значимости 5% также означает, что имеется практически 5% вероятность придти к выводу о наличии эффекта, хотя на самом деле его нет. Иногда более адекватным является использование 1% уровня значимости, особенно если очень важно избежать заключения о том, что эффект существует тогда, когда на самом деле его нет.
Мощность - это вероятность того, что нулевая гипотеза будет адекватно отвергнута, иными словами тогда, когда действительно существуют доказательства реальных различий или взаимосвязей. Ее можно рассматривать как "100 процентов минус вероятность пропуска истинного эффекта". поэтому чем выше мощность, тем меньше вероятность пропуска истинного эффекта. Мощность обычно фиксируется на уровне 80%, 90% или 95%. Мощность не должна быть меньше 80%. Если крайне важно, чтобы исследование не пропустило существующего эффекта, надо стремиться достичь мощности 90% или более.
Это наименьшие различия между средними групп или процентами событий в них (для отношений шансов самый близкий к единице риск), которые еще можно рассматривать как биологически или клинически значимые. Должна быть сформирована выборка такого размера, чтобы если подобные различия существуют, то в исследовании были бы получены статистически значимые результаты.
При двухстороннем тесте нулевая гипотеза заключается в отсутствии различий, а альтернативная гипотеза предполагает, что различия между группами могут идти в любом направлении. При одностороннем тесте альтернативная гипотеза определяет предполагаемое направление различий , например, что терапия лучше, чем плацебо, а нулевая гипотеза включает ситуации, когда эффект препарата и плацебо одинаков и когда препарат приводит к худшему, по сравнению с плацебо, результату.
Если нет серьезных причин для того, чтобы это не делать, следует пользоваться двухсторонней гипотезой. Ожидание того, что различия пойдут в том или ином направлении недостаточное основание для того, чтобы пользоваться односторонним тестом. Исследователи-медики часто оказываются удивлены, если полученный результат идет в разрез с тем, что ожидалось, очень часто подобная находка имеет иные последствия, по сравнению с отсутствием различий и поэтому она должна быть адекватным образом описана. Односторонний тест не позволяет этого сделать. Примеры ситуаций, в которых односторонний тест может оказаться приемлемы приведены в книге Bland и Altman (1994).
Расчет размера выборки должен базироваться на анализе основной переменной исхода в данном исследовании.
Если в исследование будут включены дополнительные переменные, которые также рассматриваются, как имеющие важное научное значение, то размер выборки должен таковым, чтобы позволить адекватный анализ этих переменных. Для всех важных в научном плане переменных должен быть проведен и представлен расчет размера выборки.
Расчетный размер выборки указывает количество пациентов в финальной, анализируемой в конце исследования группе. Поэтому количество лиц, которые должны быть вовлечены в исследование должно быть увеличено в соответствии с ожидаемым откликом, потерям при наблюдении, отказом от следования протоколу и другим возможным причинам потери экспериментальных субъектов. Необходимо четко описать взаимосвязь между ожидаемым количеством участников и объемом формируемой выборки.
Адекватность размера выборки должна также быть оценена в соответствии с целью исследования. Например, если целью исследования является демонстрация того, что новое лекарство лучше существующего, необходимо добиться того, чтобы размер выборки позволял обнаружить клинически значимые различия между двумя методами лечения. Однако иногда требуется продемонстрировать, что два лекарственных средства клинически эквивалентны. Этот тип исследований часто называют испытанием эквивалентности или "негативным" испытанием. Вопросы определения размера выборки для этих исследований детально описаны в работе Pocock (1983). Размер выборки в исследованиях, направленных на демонстрацию эквивалентности лекарств больше, чем в исследованиях, которые направлены на выявление различий в эффективности. Обязательно следует убедиться в том, что расчеты размеров выборки связаны с целями и задачами исследования и базируются на данных об основной переменной исхода.
Размеры выборки также должны быть адекватны используемым в исследовании методам анализа, поскольку как размер выборки, так и анализ зависят от выбранного дизайна исследования. Обязательно следует удостовериться в том, что предполагаемые методы анализа и расчеты размера выборки совместимы друг с другом.
Если планируемое исследование требует оценки одной единственной частоты, сравнения двух средних или сравнения двух частот, расчеты размера выборки (обычно) остаточно просты и поэтому представлены ниже. Однако мы рекомендуем в любом случае проконсультироваться со статистиком по поводу расчетов размера выборки.
Примечание: приведенная ниже формула базируется на т.н. "методе примерного нормального распределения" и, если только не планируется создавать очень большую выборку, не рекомендуется для оценки частот близких к 0 или 1 (0: или 100%. В подобных случаях следует пользоваться "точными" методами. Подобная ситуация может наблюдаться при изучении чувствительности и специфичности нового метода диагностики, где предполагается наличие частот, близких к 1 (100%). В данном случае следует проконсультироваться со статистиком или, как минимум, воспользоваться специализированными компьютерными программами.
Сценарий: Используя почтовый опросник оценить распространенность нарушений дыхания у пациентов с бронхиальной астмой, находящихся под наблюдением врача общей практики (Thomas и соавт., 2001)
Требующаяся информация:
Формула для оценки размера выборки одной единственной частоты:
n=15.4*p*(1-p)/W2
где n - требуемый размер выборки, р - ожидаемая частота результата (в данном случае 0,3) и W - ширина доверительного интервала (в данном случае 0.1)
Подставляя в формулу значения, получаем:
n=15.4*0.3*(1-0.3)/0.12=324
Описание результатов расчета размера выборки может выглядеть следующим образом:
"Для получения доверительного интервала в +/-5% вокруг оценки распространенности в 30% потребуется выборка из 324 человек. Учитывая 70% частоту отклика на предложение участвовать в исследовании, будет распространено 480 опросников"
Примечание: описанные ниже расчеты справедливы только для случая, когда две группы имеют один и тот же размер.
Сценарий: Планируется провести рандомизированное плацебо-контролируемое испытание эффективности колонии-стимулирующего фактора для снижения риска сепсиса у недоношенных детей. Ранее проведенное исследование продемонстрировало, что частота развития сепсиса у таких детей составляет 50% в течение 2 недель после рождения и исследователи считают, что снижение этой частоты до 34% будет являться клинически значимым.
Требующаяся информация:
Формула для расчета размера выборки при сравнении двух частот следующая:
n=[A+B]2*[(p1*(1-p1)+(p2*(1-p2)))]/[p1-p2]2
где n=размер выборки для каждой группы (общий размер выборки в два раза больше)
р1=первая частота - в данном случае 0.50
р2=вторая частота - в данном случае 0.34
р1-р2=клинически значимые различия, в данном случае 0.16
А - зависит от уровня значимости (см. таблицу) - в данном случае 1.96
В - зависит от мощности (см. таблицу) - в данном случае 0.84
| Таблица значений для А и В |
|
| Уровень значимости |
А |
| 5% |
1.96 |
| 1% |
2.58 |
| Мощность |
В |
| 80% |
0.84 |
| 90% |
1.28 |
| 95% |
1.64 |
Подставляя значения в формулу получим:
n=[1.96+0.84]2*[(0.5*0.5+(0.34*0.66)]/[0.16]2=146
Таким образом, мы получаем количество наблюдений, необходимое для включения в каждую из групп. Общая численность выборки будет в два раза больше, т.е. 292 ребенка
Описание результатов расчета размера выборки может выглядеть следующим образом:
"Выборка в 292 новорожденных (146 в группе лечения и плацебо) будет достаточным для того, чтобы выявить различия в частоте сепсиса 16% с 80% мощностью на 5% уровне достоверности. 16% различия равны разности между 50% частотой сепсиса к 14 дню наблюдения в группе плацебо и 34% частотой в группе лечения."
Примечание: описанные ниже расчеты справедливы только для случая, когда две группы имеют один и тот же размер.
Сценарий: планируется рандомизированное контролируемое испытание по сравнению краткосрочного психологического лечения в сравнении с обычным лечением для борьбы с суицидальными тенденциями у пациентов, госпитализированных после суицидальной попытки отравления. Суицидальные тенденции измеряются с помощью шкалы Бека. Стандартное отклонение для оценок по этой шкале составляет 7.7 (данные предшествующих исследований) и клинически значимыми считаются различия в 5 баллов по шкале Бека. Предполагается, что из группы лечения выйдут до трети пациентов (Guthrie и соавт., 2001)
Необходимая информация:
Формула для расчета размера выборки при сравнении двух средних следующая:
n=[A+B]2*2*SD2/DIFF2
где n=размер выборки для каждой группы (общий размер выборки в два раза бльше)
SD= стандартное отклонения для основной переменной исхода, в данном случае 7.7
DIFF=клинически важный эффект, в данном случае 5.0
А - зависит от уровня значимости (см. таблицу) - в данном случае 1.96
В - зависит от мощности (см. таблицу) - в данном случае 0.84
| Таблица значений для А и В |
|
| Уровень значимости |
А |
| 5% |
1.96 |
| 1% |
2.58 |
| Мощность |
В |
| 80% |
0.84 |
| 90% |
1.28 |
| 95% |
1.64 |
Подставляя необходимые значения в формулу получаем:
n=[1.96+0.84]2*2*7.72/5.02=38
Таким образом, мы получаем количество наблюдений, необходимое для включения в каждую из групп. Общая численность выборки будет в два раза больше, т.е. 76 человек.
Адекватное описание оценки размеров выборки будет выглядеть следующим образом:
"Для выявления различий в 5 баллов по шкале суицидальных тенденций Бека на 5% уровне значимости с 80% мощностью, принимая стандартное отклонение равным 7.7 баллам, потребуется 38 человек в группу вмешательства и контроля. Это число было увеличено до 60 в группе (общее количество наблюдений 120), для того, чтобы компенсировать потери при наблюдении, составляющие обычно около трети обследуемых"
"Предшествующее исследование в данной области использовало выборку в 150 человек и получило высоко достоверные результаты (р=0.014), поэтому в данное исследование включается аналогичное количество пациентов"
Предшествующие исследования могли оказаться просто "везучими" в том смысле, что найденные ими значимые результаты являются следствием случайного варьирования выборочных средних. Необходимо рассчитывать размер выборки для данного исследования - включая такие детали, как мощность исследования, уровень значимости, основная изучаемая переменная, размер клинически значимого эффекта, стандартное отклонение (для количественных переменных) и размер каждой группы, если в исследовании будет несколько групп
"Расчет размера выборки не проводился, поскольку предварительная информация для ее оценки отсутствовала"
Необходимо тщательно проанализировать литературу, чтобы найти информацию, необходимую для расчета размера выборки. Если такой информации нет, можно организовать небольшое предварительное исследование для сбора этой информации.
Если отсутствуют данные о значении стандартного отклонения, расчеты размера выборки могут быть даны в более общем виде, например различия, являющиеся клинически эффективными могут быть описаны не в абсолютных значениях, а в единицах стандартного отклонения.
Вместе с тем, если пишется заявка на грант, направленный на финансирование пилотного исследования для сбора информации, необходимой для расчета размера выборки последующего крупного исследования, то в такой заявке расчет размера выборки не проводится.
Пример 3
"В клинику в течение года поступает 50 пациентов с данным заболеванием. Около 10% из них могут отказаться от участия в исследовании. Поэтому в течение двух лет можно будет набрать выборку размером в 90 человек"
Хотя большинство исследований должны уравновешивать возможности их организации с мощностью, размер выборки не должен определяться на основании только количества доступных для исследования пациентов.
В ситуациях, когда количество пациентов является ограничивающим размер выборки фактором, расчеты все равно должны проводиться для того, чтобы установить а) мощность исследования с данным количеством пациентов по отношению к клинически важным различиям или б) размер эффекта, который может быть выявлен в исследовании данного размера (учитывая его мощность).
В тех случаях, когда доступное количество пациентов слишком мало для того, чтобы выявить клинически значимые различия, можно подумать об увеличении продолжительности исследования или проведения совместного с несколькими исследователями многоцентрового испытания.