Расчет размера выборки

M.Bland

Когда необходимо рассчитывать размер выборки?

Размер выборки требуется определить перед началом большинства количественных исследований. Определение размера выборки не требуется для качественных исследований (обратите внимание, что здесь понимаются формально количественные методы, такие как контент-анализ; простые описательные проекты относятся к количественным). Расчет размера выборки может не выполнять перед проведением предварительных, пилотных исследований (однако такие исследования обычно выполняются перед реальным планированием научного исследования). В случае сомнений, обязательно обратитесь в то учреждение, которое финансирует исследование или включает его в свой план исследований - отсутствие данные о размере выборки одна из наиболее частых причин отказа в утверждении темы

Почему размер выборки важен для исследователя?

При проведении исследований, которые определяют распространенность некоей характеристики в популяции (например, распространенность астмы у детей), расчет размера выборки необходим для того, чтобы полученные оценки имели желаемую степень точности. Например, распространенность заболевания в 10%, полученная на выборке размером в 20 человек будет иметь 95% доверительный интервал от 1% до 31%, что никак нельзя признать ни точно, ни информативной оценкой. С другой стороны, распространенность заболевания в 10%, полученная на выборке размером в 400 человек будет иметь 95% доверительный интервал от 7% до 13%, что может рассматриваться, как достаточно точный результат. оценка размеров выборки позволяет избежать первого из этих двух вариантов.

В исследованиях, направленных на выявление эффекта (например, разность эффективности двух методов лечения, относительный риск заболевания при наличии или отсутствии фактора риска) оценка размера выборки важна для того, чтобы удостовериться в том, что если клинически или биологически важный эффект существует , то он с высокой степенью вероятности будет обнаружен, иными словами анализ даст статистически значимые результаты. Если размер выборки невелик то даже в случае значительных различий между группами будет невозможно доказать, что они являются следствием чего-то иного, кроме как выборочной вариабельности.

Информация необходимая для расчета размера выборки

Обычно рекомендуется, чтобы при расчете размера выборки была бы получена консультация биостатистика

Методы оценки размера выборки описаны в ряде учебников по статистике, включая Altman, 1991; Bland, 2000; Armitage, Berry и Matthews, 2002. Две книги специализируются на описании методов оценки размеров выборки в разных ситуациях. Для качественных параметров следует проконсультироваться с работой Manchin и соавт. (1998), для качественных - Lemeshow и соавт. (1996). В обеих книгах приведены таблицы, облегчающие расчет размеров выборки. В случае последовательных испытаний, необходимо обратиться к работе Whitehead (1997).Собственно расчеты размера выборки могут быть выполнены с использованием одной из многочисленных компьютерных программ. Так, программа Stata позволяет анализировать размер выборки, необходимый для сравнения средних и пропорций, а также анализа распространенности. Значительно большее количество опций предлагают специализированные пакеты, такие как nQuery Advisor или UnifyPow.

Расчет размера выборки зависит от следующих факторов, которые надо будет сообщить статистику-консультанту:

При этом потребуется ответить на ряд дополнительных вопросов:

Следует принять во внимание, что нерандомизированные исследования различий или взаимосвязей обычно требуют значительно больший размер выборки для того, чтобы принять во внимание при анализе влияние третьих переменных. При этом исследователя интересует абсолютный размер выборки, а не процент, который она составляет от популяции в целом.

Какие статистические термины используются при описании процесса планировании размера выборки

Нулевая и альтернативная гипотезы

Многие типы статистического анализа направлены на сравнение двух видов лечения, процедур или групп пациентов. Численное значение, которое суммирует интересующие исследователя различия называется эффектом. В других исследованиях эффектом может являться коэффициент корреляции, отношение шансов или относительный риск. Затем мы выдвигаем нулевую и альтернативную гипотезы. Обычно нулевая гипотеза гласит, что эффекта нет (различия между группами равны нулю, относительный риск равен единице, корреляционный коэффициент равен нулю), альтернативная гипотеза предполагает, что эффект есть.

Доверительная вероятность (р-оценка)

р-оценка это вероятность наблюдения в исследовании такого же или более сильного эффекта при условии справедливости нулевой гипотезы. Обычно выражается как пропорция (например, р=0.03)

Уровень значимости

Уровень значимости - это пороговое значение для р-оценки, ниже которого нулевая гипотеза должна быть отвергнута и сделано заключение о том, что имеются доказательства эффекта. Обычно уровень значимости устанавливается на значении 5% (Уровень значимости, несмотря на прямую связь с р-оценкой выражается в процентах: 5% уровень значимости эквивалентен р=0.05). Если наблюдаемой значение меньше 5%, то имеется незначительная вероятность, что в исследовании были бы получены такие результаты, если бы истинного эффекта не было. Поэтому принимается гипотеза о наличии эффекта

Уровень значимости 5% также означает, что имеется практически 5% вероятность придти к выводу о наличии эффекта, хотя на самом деле его нет. Иногда более адекватным является использование 1% уровня значимости, особенно если очень важно избежать заключения о том, что эффект существует тогда, когда на самом деле его нет.

Мощность

Мощность - это вероятность того, что нулевая гипотеза будет адекватно отвергнута, иными словами тогда, когда действительно существуют доказательства реальных различий или взаимосвязей. Ее можно рассматривать как "100 процентов минус вероятность пропуска истинного эффекта". поэтому чем выше мощность, тем меньше вероятность пропуска истинного эффекта. Мощность обычно фиксируется на уровне 80%, 90% или 95%. Мощность не должна быть меньше 80%. Если крайне важно, чтобы исследование не пропустило существующего эффекта, надо стремиться достичь мощности 90% или более.

Клинически важный размер эффекта

Это наименьшие различия между средними групп или процентами событий в них (для отношений шансов самый близкий к единице риск), которые еще можно рассматривать как биологически или клинически значимые. Должна быть сформирована выборка такого размера, чтобы если подобные различия существуют, то в исследовании были бы получены статистически значимые результаты.

Односторонний или двухсторонний тест значимости

При двухстороннем тесте нулевая гипотеза заключается в отсутствии различий, а альтернативная гипотеза предполагает, что различия между группами могут идти в любом направлении. При одностороннем тесте альтернативная гипотеза определяет предполагаемое направление различий , например, что терапия лучше, чем плацебо, а нулевая гипотеза включает ситуации, когда эффект препарата и плацебо одинаков и когда препарат приводит к худшему, по сравнению с плацебо, результату.

Если нет серьезных причин для того, чтобы это не делать, следует пользоваться двухсторонней гипотезой. Ожидание того, что различия пойдут в том или ином направлении недостаточное основание для того, чтобы пользоваться односторонним тестом. Исследователи-медики часто оказываются удивлены, если полученный результат идет в разрез с тем, что ожидалось, очень часто подобная находка имеет иные последствия, по сравнению с отсутствием различий и поэтому она должна быть адекватным образом описана. Односторонний тест не позволяет этого сделать. Примеры ситуаций, в которых односторонний тест может оказаться приемлемы приведены в книге Bland и Altman (1994).

Какие переменные должны учитываться при расчете размера выборки

Расчет размера выборки должен базироваться на анализе основной переменной исхода в данном исследовании.

Если в исследование будут включены дополнительные переменные, которые также рассматриваются, как имеющие важное научное значение, то размер выборки должен таковым, чтобы позволить адекватный анализ этих переменных. Для всех важных в научном плане переменных должен быть проведен и представлен расчет размера выборки.

Учет процента отклика и потерь при наблюдении

Расчетный размер выборки указывает количество пациентов в финальной, анализируемой в конце исследования группе. Поэтому количество лиц, которые должны быть вовлечены в исследование должно быть увеличено в соответствии с ожидаемым откликом, потерям при наблюдении, отказом от следования протоколу и другим возможным причинам потери экспериментальных субъектов. Необходимо четко описать взаимосвязь между ожидаемым количеством участников и объемом формируемой выборки.

Соответствие целям исследования и методам статистического анализа

Адекватность размера выборки должна также быть оценена в соответствии с целью исследования. Например, если целью исследования является демонстрация того, что новое лекарство лучше существующего, необходимо добиться того, чтобы размер выборки позволял обнаружить клинически значимые различия между двумя методами лечения. Однако иногда требуется продемонстрировать, что два лекарственных средства клинически эквивалентны. Этот тип исследований часто называют испытанием эквивалентности или "негативным" испытанием. Вопросы определения размера выборки для этих исследований детально описаны в работе Pocock (1983). Размер выборки в исследованиях, направленных на демонстрацию эквивалентности лекарств больше, чем в исследованиях, которые направлены на выявление различий в эффективности. Обязательно следует убедиться в том, что расчеты размеров выборки связаны с целями и задачами исследования и базируются на данных об основной переменной исхода.

Размеры выборки также должны быть адекватны используемым в исследовании методам анализа, поскольку как размер выборки, так и анализ зависят от выбранного дизайна исследования. Обязательно следует удостовериться в том, что предполагаемые методы анализа и расчеты размера выборки совместимы друг с другом.

Примеры расчета размера выборки.

Если планируемое исследование требует оценки одной единственной частоты, сравнения двух средних или сравнения двух частот, расчеты размера выборки (обычно) остаточно просты и поэтому представлены ниже. Однако мы рекомендуем в любом случае проконсультироваться со статистиком по поводу расчетов размера выборки.

Оценка одной единственной частоты

Примечание: приведенная ниже формула базируется на т.н. "методе примерного нормального распределения" и, если только не планируется создавать очень большую выборку, не рекомендуется для оценки частот близких к 0 или 1 (0: или 100%. В подобных случаях следует пользоваться "точными" методами. Подобная ситуация может наблюдаться при изучении чувствительности и специфичности нового метода диагностики, где предполагается наличие частот, близких к 1 (100%). В данном случае следует проконсультироваться со статистиком или, как минимум, воспользоваться специализированными компьютерными программами.

Сценарий: Используя почтовый опросник оценить распространенность нарушений дыхания у пациентов с бронхиальной астмой, находящихся под наблюдением врача общей практики (Thomas и соавт., 2001)

Требующаяся информация:

Формула для оценки размера выборки одной единственной частоты:

n=15.4*p*(1-p)/W2

где n - требуемый размер выборки, р - ожидаемая частота результата (в данном случае 0,3) и W - ширина доверительного интервала (в данном случае 0.1)

Подставляя в формулу значения, получаем:

n=15.4*0.3*(1-0.3)/0.12=324

Описание результатов расчета размера выборки может выглядеть следующим образом:

"Для получения доверительного интервала в +/-5% вокруг оценки распространенности в 30% потребуется выборка из 324 человек. Учитывая 70% частоту отклика на предложение участвовать в исследовании, будет распространено 480 опросников"

Сравнение двух частот

Примечание: описанные ниже расчеты справедливы только для случая, когда две группы имеют один и тот же размер.

Сценарий: Планируется провести рандомизированное плацебо-контролируемое испытание эффективности колонии-стимулирующего фактора для снижения риска сепсиса у недоношенных детей. Ранее проведенное исследование продемонстрировало, что частота развития сепсиса у таких детей составляет 50% в течение 2 недель после рождения и исследователи считают, что снижение этой частоты до 34% будет являться клинически значимым.

Требующаяся информация:

Формула для расчета размера выборки при сравнении двух частот следующая:

n=[A+B]2*[(p1*(1-p1)+(p2*(1-p2)))]/[p1-p2]2

где n=размер выборки для каждой группы (общий размер выборки в два раза больше)

р1=первая частота - в данном случае 0.50

р2=вторая частота - в данном случае 0.34

р12=клинически значимые различия, в данном случае 0.16

А - зависит от уровня значимости (см. таблицу) - в данном случае 1.96

В - зависит от мощности (см. таблицу) - в данном случае 0.84

Таблица значений для А и В

 

Уровень значимости

 А

5%

 1.96

1%

 2.58

   

Мощность

 В

80%

 0.84

90%

 1.28

95%

 1.64

Подставляя значения в формулу получим:

n=[1.96+0.84]2*[(0.5*0.5+(0.34*0.66)]/[0.16]2=146

Таким образом, мы получаем количество наблюдений, необходимое для включения в каждую из групп. Общая численность выборки будет в два раза больше, т.е. 292 ребенка

Описание результатов расчета размера выборки может выглядеть следующим образом:

"Выборка в 292 новорожденных (146 в группе лечения и плацебо) будет достаточным для того, чтобы выявить различия в частоте сепсиса 16% с 80% мощностью на 5% уровне достоверности. 16% различия равны разности между 50% частотой сепсиса к 14 дню наблюдения в группе плацебо и 34% частотой в группе лечения."

Сравнение двух средних

Примечание: описанные ниже расчеты справедливы только для случая, когда две группы имеют один и тот же размер.

Сценарий: планируется рандомизированное контролируемое испытание по сравнению краткосрочного психологического лечения в сравнении с обычным лечением для борьбы с суицидальными тенденциями у пациентов, госпитализированных после суицидальной попытки отравления. Суицидальные тенденции измеряются с помощью шкалы Бека. Стандартное отклонение для оценок по этой шкале составляет 7.7 (данные предшествующих исследований) и клинически значимыми считаются различия в 5 баллов по шкале Бека. Предполагается, что из группы лечения выйдут до трети пациентов (Guthrie и соавт., 2001)

Необходимая информация:

Формула для расчета размера выборки при сравнении двух средних следующая:

n=[A+B]2*2*SD2/DIFF2

где n=размер выборки для каждой группы (общий размер выборки в два раза бльше)

SD= стандартное отклонения для основной переменной исхода, в данном случае 7.7

DIFF=клинически важный эффект, в данном случае 5.0

А - зависит от уровня значимости (см. таблицу) - в данном случае 1.96

В - зависит от мощности (см. таблицу) - в данном случае 0.84

Таблица значений для А и В

 

Уровень значимости

 А

5%

 1.96

1%

 2.58

   

Мощность

 В

80%

 0.84

90%

 1.28

95%

 1.64

Подставляя необходимые значения в формулу получаем:

n=[1.96+0.84]2*2*7.72/5.02=38

Таким образом, мы получаем количество наблюдений, необходимое для включения в каждую из групп. Общая численность выборки будет в два раза больше, т.е. 76 человек.

Адекватное описание оценки размеров выборки будет выглядеть следующим образом:

"Для выявления различий в 5 баллов по шкале суицидальных тенденций Бека на 5% уровне значимости с 80% мощностью, принимая стандартное отклонение равным 7.7 баллам, потребуется 38 человек в группу вмешательства и контроля. Это число было увеличено до 60 в группе (общее количество наблюдений 120), для того, чтобы компенсировать потери при наблюдении, составляющие обычно около трети обследуемых"

Примеры неадекватных описаний оценок размера необходимой выборки

Пример 1

"Предшествующее исследование в данной области использовало выборку в 150 человек и получило высоко достоверные результаты (р=0.014), поэтому в данное исследование включается аналогичное количество пациентов"

Предшествующие исследования могли оказаться просто "везучими" в том смысле, что найденные ими значимые результаты являются следствием случайного варьирования выборочных средних. Необходимо рассчитывать размер выборки для данного исследования - включая такие детали, как мощность исследования, уровень значимости, основная изучаемая переменная, размер клинически значимого эффекта, стандартное отклонение (для количественных переменных) и размер каждой группы, если в исследовании будет несколько групп

Пример 2.

"Расчет размера выборки не проводился, поскольку предварительная информация для ее оценки отсутствовала"

Необходимо тщательно проанализировать литературу, чтобы найти информацию, необходимую для расчета размера выборки. Если такой информации нет, можно организовать небольшое предварительное исследование для сбора этой информации.

Если отсутствуют данные о значении стандартного отклонения, расчеты размера выборки могут быть даны в более общем виде, например различия, являющиеся клинически эффективными могут быть описаны не в абсолютных значениях, а в единицах стандартного отклонения.

Вместе с тем, если пишется заявка на грант, направленный на финансирование пилотного исследования для сбора информации, необходимой для расчета размера выборки последующего крупного исследования, то в такой заявке расчет размера выборки не проводится.

Пример 3

"В клинику в течение года поступает 50 пациентов с данным заболеванием. Около 10% из них могут отказаться от участия в исследовании. Поэтому в течение двух лет можно будет набрать выборку размером в 90 человек"

Хотя большинство исследований должны уравновешивать возможности их организации с мощностью, размер выборки не должен определяться на основании только количества доступных для исследования пациентов.

В ситуациях, когда количество пациентов является ограничивающим размер выборки фактором, расчеты все равно должны проводиться для того, чтобы установить а) мощность исследования с данным количеством пациентов по отношению к клинически важным различиям или б) размер эффекта, который может быть выявлен в исследовании данного размера (учитывая его мощность).

В тех случаях, когда доступное количество пациентов слишком мало для того, чтобы выявить клинически значимые различия, можно подумать об увеличении продолжительности исследования или проведения совместного с несколькими исследователями многоцентрового испытания.

Литература

  1. Altman DG. (1991) Practical Statistics for Medical Research. Chapman and Hall, London.
  2. Armitage P, Berry G, Matthews JNS. (2002) Statistical Methods in Medical Research, 4th ed. Blackwell, Oxford.
  3. Bland JM and Altman DG. (1994). One and two sided tests of significance. British Medical Journal 309 248.
  4. Bland M. (2000) An Introduction to Medical Statistics, 3rd. ed. Oxford University Press, Oxford.
  5. Elashoff JD. (2000) nQuery Advisor Version 4.0 User's Guide. Los Angeles, CA.
  6. Guthrie E, Kapur N, Mackway-Jones K, Chew-Graham C, Moorey J, Mendel E, Marino-Francis F, Sanderson S, Turpin C, Boddy G, Tomenson B. (2001) Randomised controlled trial of brief psychological intervention after deliberate self poisoning. British Medical Journal 323, 135-138.
  7. Lemeshow S, Hosmer DW, Klar J & Lwanga SK. (1996) Adequacy of sample size in health studies. John Wiley & Sons, Chichester.
  8. Machin D, Campbell MJ, Fayers P, Pinol, A. (1998) Statistical Tables for the Design of Clinical Studies, Second Edition Blackwell, Oxford.
  9. Pocock SJ. (1983) Clinical Trials: A Practical Approach. John Wiley and Sons, Chichester.
  10. Thomas M, McKinley RK, Freeman E, Foy C. (2001) Prevalence of dysfunctional breathing in patients treated for asthma in primary care: cross sectional survey. British Medical Journal 322, 1098-1100.
  11. Whitehead, J. (1997) The Design and Analysis of Sequential Clinical Trials, revised 2nd. ed. Chichester, Wiley.