Skip to Content

Статистический анализ данных: просто или сложно? (точка зрения студента)

ID: 2015-01-3930-A-4457
Оригинальная статья (свободная структура)
ГБОУ ВПО Саратовский ГМУ им. В.И. Разумовского Минздрава России

Резюме

Знание основ медицинской статистики и использование их при статистическом анализе клинико-лабораторных данных играет важную роль в прогнозировании закономерностей между медицинскими параметрами. В данной статье рассмотрены основные аспекты статистического анализа клинико-лабораторных данных, описывается пример расчета t-критерия и доверительного интервала для определения зависимости концентрации гемоглобина крови от различных факторов.

Ключевые слова

медицинская статистика, критерий Стьюдента, доверительный интервал, показатель гемоглобина, прогнозирование в медицине.

Статья

Статистика – это наука, изучающая количественную сторону массовых явлений в неразрывной связи с их качественной стороной. А медицинская статистика изучает вопросы, связанные с медициной. Для того чтобы стать по-настоящему грамотным специалистом, студенты медицинского вуза должны изучать биометрию, статистику, медицинскую информатику. Роль этих наук в практической деятельности современного врача очень велика, их умелое применение позволяет своевременно оценить уровень здоровья пациентов, оперативно выбрать эффективные диагностические и лечебные мероприятия, повысить качество медицинской помощи и соответственно – качество жизни населения.

Основную цель данной работы составлял анализ методики статистического анализа клинико-лабораторных данных. В результате обзора научной литературы мы остановились на работе И.А. Зворыгина [1], в которой пошагово, в доступной форме, представлена  последовательность статистического анализа клинико-лабораторных данных.

1. Описание исходных данных

Как правило, основными задачами статистического анализа являются:

- описание группы (либо нескольких групп) данных с расчетом параметров распределения;

- сравнение нескольких групп данных с учетом параметров распределения.

Компактное описание данных – задача так называемой описательной статистики, в фундаменте которой лежит понятие нормального распределения (распределения Гаусса) [2]. Такое распределение встречается достаточно часто в нормальных физиологических условиях, если значения изучаемого признака близки к их среднему арифметическому значению и примерно с равной вероятностью отклоняются от него в большую или меньшую сторону (рис. 1). Для описания такого распределения используются параметры: среднее значение М и стандартное отклонение s[3].

В качестве примера нормального распределения можно рассмотреть концентрацию гемоглобина крови: данный показатель отклоняется от среднего значения под действием различных слабо выраженных, не зависящих друг от друга факторов – таких, как поступление и потеря железа, интенсивность эритропоэза, время жизни эритроцитов и др. Исходные лабораторные данные – результаты определения концентрации гемоглобина у 30 дноров мужского пола [1].

Рассмотрим ход расчета параметров распределения и будем заносить результаты в табл. 1. Прежде всего, введем исходные показатели в первую колонку таблицы. Далее вычислим среднее арифметическое путем деления суммы исходных значений концентрации гемоглобина на число проб согласно формуле:

Во вторую колонку запишем отклонения данных от среднего значения, т.е. разности (X – M) (из каждого значения вычитается среднее арифметическое). Затем возведем полученные величины в квадрат и поместим их в третью колонку таблицы (X – M)2.

Теперь рассчитаем стандартное отклонение (среднее квадратическое отклонение) по формуле


т.е. сумму квадратов отклонений поделим на величину «число проб минус единица» и извлечем из полученного значения квадратный корень.

В результате проведенных расчетов у нас появятся два важных параметра: среднее значение и стандартное отклонение. Эти величины характеризуют распределение признака (концентрации гемоглобина) в совокупности данных. Полученные значения принято записывать формате M ± s с указанием единицы измерения: 147,13 ± 8,54 г/л.

2. Сравнение двух групп с использованием критерия Стьюдента

Полученную выше информацию систематизируем и дополним. По исходным данным о показателях гемоглобина крови, взятой в той же лаборатории у доноров женского пола, в соответствии с вышеприведенным алгоритмом вычислим М, (X – M), (X – M)2, s. Для сравнения показателей гемоглобина для мужчин и женщин составим табл. 2.

Из данных табл. 2 видно, что у некоторых женщин концентрация гемоглобина выше, чем у некоторых мужчин. Однако, концентрация гемоглобина может быть и не связана с гендерным фактором, а быть всего лишь «игрой случая» [1]. Данное предположение составляет суть «нулевой гипотезы» – предположения, что те или иные факторы не оказывают никакого влияния на исследуемую величину, а наблюдаемые различия между группами носят случайный характер.

Дальнейший статистический анализ при сравнении двух групп данных состоит в подтверждении либо опровержении выдвинутой нулевой гипотезы. Для этого используются статистические критерии – методы оценки статистической значимости различий, среди которых наиболее часто применяется критерий Стьюдента t.

Наиболее простая формула расчета критерия Стьюдента выглядит следующим образом:

В числителе – разность средних значений двух групп, в знаменателе – квадратный корень из суммы квадратов стандартных ошибок этих средних значений.

Существуют и другие варианты расчета критерия Стьюдента – например, с использованием числа наблюдений и стандартных отклонений:

Здесь тот же числитель, но в знаменателе – квадратный корень из суммы квадратов стандартных отклонений, деленных на число наблюдений в соответствующей группе. Отметим, что величина s2 – квадрат стандартного отклонения – отражает степень разброса данных в выборке и носит название «дисперсия» (от английского слова disperse –«рассеиваться»). Согласно исходным данным для рядов мужчин и женщин, s1 = 8,54, s2 = 6,21.

Рассмотрим последнюю формулу. Нулевая гипотеза подразумевает, что обе группы данных представляют собой случайные выборки из одной совокупности. В этом случае из двух квадратов стандартных отклонений s12 и s22 необходимо рассчитать объединенную оценку дисперсии для двух групп данных [1]:

Затем, зная объединенную оценку дисперсии s2 для двух выборок, можно рассчитать критерий Стьюдента по вышеприведенной формуле.

По данным табл. 2 мы видим, что группы доноров – мужчин и женщин неравнозначны по объему (n= 30; n2 = 21). В подобном случае необходимо вычислить объединенную оценку дисперсии:

По формуле для расчета критерия Стьюдента получаем

Полученную величину критерия Стьюдента = 9,09 необходимо правильно оценить. Чем ближе к нулю полученный результат, тем больше вероятность нулевой гипотезы. И напротив – чем выше полученное значение t, тем больше оснований отвергнуть нулевую гипотезу и считать, что различия между исследуемыми выборками статистически значимы. Значение критерия, начиная с которого нулевая гипотеза считается отвергнутой, называется критическим значением t.

В задаче об отклонении либо принятии нулевой гипотезы есть следующие «подводные камни»: ошибки первого и второго рода. Если исследователь на основании статистического критерия отклоняет нулевую гипотезу там, где она на самом деле верна, т.е. находит различия там, где их нет, принято говорить об ошибке первого рода. Максимально допустимая вероятность ошибочно отвергнуть нулевую гипотезу называется уровнем значимости и обозначается греческим символом a, поэтому ошибка первого рода – это a-ошибка.

Формально уровень значимости может задаваться непосредственно исследователем. Традиционно  в  медицинских  исследованиях  считается  достаточным,  чтобы  вероятность a-ошибки не превышала 5% (a = 0,05). Соответственно, чем меньше уровень значимости, тем выше критическое значение tкр. Уменьшая величину a, например до 0,01, мы снижаем вероятность найти несуществующие различия до 1%. Однако, следует учитывать, что слишком низкий уровень значимости (и, следовательно, слишком высокое критическое значение) приводит к риску не найти различий там, где они есть (иными словами, ошибочно подтвердить  нулевую  гипотезу)  –  в  этом  случае  пойдет  речь  об  ошибке  второго  рода  (b-ошибке).

Фактором, влияющим на критическое значение, является также число наблюдений в исследуемой группе. Чем больше объем выборок, тем меньше критическое значение tкр, т.к. в больших выборках параметры распределения меньше зависят от случайных отклонений и точнее представляют исходную совокупность данных [2]. Величину, отражающую объем выборок и влияющую на критическое значение, называют числом степеней свободы и обозначают греческой буквой h: h = n1 + n2 – 2.

Итак, a и h – факторы, влияющее на критическое значение критерия Стьюдента. Примем уровень значимости a = 0,05, вычислим число степеней свободы: 

h = 30 + 21 – 2 = 49.

Формулы расчета критических значений достаточно сложны, поэтому принято пользоваться готовыми таблицами, которые можно найти в учебниках и пособиях по статистике – например, в работе С. Гланца [2]. Выбирается строка с параметром h (при его отсутствии в рассматриваемой таблице берется ближайшее меньшее значение – в нашем случае 48 вместо 49). Далее определяем, что при уровне значимости a = 0,05 критическое значение критерия Стьюдента составляет = 2,011.

Следовательно, полученное выше значение > 2,011 позволяет отказаться от нулевой гипотезы и признать статистически значимыми различия между группами доноров – мужчин и женщин. Вычисленное значение критерия Стьюдента = 9,09 с большим запасом превышает критическое значение даже для уровня значимости a = 0,001.

Далее, для завершения анализа нужна еще одна характеристика, которая фигурирует в большинстве научных работ – вероятность справедливости нулевой гипотезы, обозначаемая p. Дело в том, что кроме критерия Стьюдента существует довольно много других статистических критериев для оценки значимости различий. Способы расчета и критические значения каждый раз будут разные, но выводы в любом случае будут отражать вероятность справедливости нулевой гипотезыp. Иными словами, p представляет собой вероятность ошибки [1].

Например, если полученная величина t оказывается ниже критического значения для a = 0,05, то это означает p > 0,05 – вероятность отвергнуть справедливую нулевую гипотезу в этом случае превышает 5%, и это не позволяет считать различия статистически значимыми. В случае, когда величина t превышает критическое значение для a = 0,05, но все же остается меньше критического значения для a = 0,01, результат записывается как p < 0,05.

На основании изложенного, в примере с гемоглобином мы можем интерпретировать полученные данные следующим образом: вероятность справедливости нулевой гипотезы о независимости концентрации гемоглобина в донорской крови от гендерного фактора составляет менее 0,1%, т.е. p < 0,001, что соответствует максимально высокой оценке значимости различий.

3. Вычисление доверительного интервала

Выше, на основании вычисленного критерия Стьюдента, мы выяснили, что отличия средних значений концентрации гемоглобина в двух группах доноров (мужчин и женщин) являются статистически значимыми. Кроме того, было установлено, что вероятность ошибки этого заключения составляет менее 0,1% (p < 0,001). Иными словами, с вероятностью ошибки менее 0,1% мы отклонили нулевую гипотезу о равенстве средних значений концентрации гемоглобина в группах мужчин и женщин.

К числу наиболее распространенных ошибок в медицинской статистике, наряду с некорректным использованием критерия Стьюдента (например, при отсутствии нормального распределения данных либо при очень широко распространенном попарном сравнении более двух групп данных), относится подмена понятий «статистически значимый» и «клинически значимый». Собственно критерий Стьюдента не позволяет характеризовать величину выявленных различий. Даже очень малые различия средних значений (M1 – M2) при большой численности сравниваемых групп могут оказаться статистически значимыми: чем больше число наблюдений n, тем меньше становится стандартная ошибка среднего m, тем выше критерий Стьюдента t, рассчитанный согласно вышеприведенным формулам.

Характеристикой, которая дополняет и даже в определенной степени заменяет суждение «значимо – незначимо», является доверительный интервал. Смысл доверительного интервала в том, что, даже не зная точного значения какой-либо величины, можно с заданной вероятностью указать интервал, в котором эта величина находится [4].

Таким образом, доверительный интервал представляет собой интервал значений, рассчитанный для какого-либо параметра по выборке и с определенной вероятностью (в медицине, как правило, 95%), включающий истинное значение этого параметра во всей генеральной совокупности.

Доверительный интервал может быть построен не только для самых разных величин (например, для средних значений и их разности), но и для ожидаемых значений измеряемого признака, что часто используется при определении границ нормы лабораторных показателей. При этом построение доверительных интервалов основано на тех же математических принципах, что и проверка статистических гипотез с использованием критериев, поэтому для работы понадобятся те же самые параметры описательной статистики, что и при вычислении критерия Стьюдента. Составим табл. 3 и проведем дальнейшие расчеты, согласно методике, предложенной И.А. Зворыгиным [1].

Обозначим разность выборочных средних (М– М2), разность истинных средних генеральных совокупностей (µ– µ2), далее вычислим верхнее и нижнее предельные значения, между которыми и будет с заданной вероятностью находиться величина (µ– µ2). Для этого сначала найдем разность выборочных средних:

М– М2 = 147,13 – 127,29 = 19,84.

Выше мы рассчитали число степеней свободы h = 49, выбираем в таблице соответствующее значение tкр, принимая a = 0,05:  = 2,01.

Далее вычисляем объединенную оценку дисперсии s2 и стандартную ошибку разности средних по формулам:

Находим произведение стандартной ошибки разности и значения tкр: 2,18 × 2,01 = 4,38. Проводим построение 95%-ного доверительного интервала для разности средних, определяя верхнюю и нижнюю границы:

(М– М2) + (tкр × ) = 19,84 + 4,38 = 24,22

(М– М2) – (tкр × ) = 19,84 – 4,38 = 15,46

Составляем выражение:

15,46 < µ– µ2 < 24,22.

Смысл последнего выражения можно выразить так: наши выборочные данные позволяют с 95%-ной надежностью утверждать, что истинное среднее значение концентрации гемоглобина у доноров крови мужского пола выше аналогичного показателя у доноров-женщин на величину от 15,46 до 24,22 г/л.

Таким образом, благодаря доверительному интервалу можно не просто констатировать статистическую значимость различий между средними значениями гемоглобина в двух группах доноров, но и указать величину выявленных различий.

Далее имеет смысл указать и доверительный интервал для разности средних, дающий возможность судить о величине различий. В этом случае можно вовремя заметить, что статистическая значимость обнаружена всего лишь благодаря большому объему выборки, тогда как клиническая значимость исследования осталась весьма сомнительной.

Более того, доверительные интервалы вполне могут заменить статистические критерии и при оценке статистической значимости различий. Дело в том, что истинная разность средних может находиться в любой точке доверительного интервала. Поэтому, если полученный при работе с выборками доверительный интервал содержит нулевое значение, то это значит, что истинная разность средних также может быть равна нулю. Следовательно, не будет оснований отвергнуть нулевую гипотезу. В свою очередь, если доверительный интервал не содержит нуля, можно с заданной уверенностью отказаться от нулевой гипотезы и считать различия статистически значимыми.

Существует несколько несложных правил интерпретации доверительных интервалов с точки зрения проверки статистических гипотез:

- если доверительный интервал включает как клинически значимые, так и клинически незначимые значения, то результаты недостаточно точны для того, чтобы сделать определенный вывод;

- если доверительный интервал для разности средних включает ноль, то следует считать, что различия между группами по анализируемому признаку отсутствуют;

- если 95%-ный доверительный интервал не включает ноль, то следует считать, что различие между группами существует при уровне статистической значимости 0,05 [1].

В исследуемом случае с гемоглобином крови доноров доверительный интервал не содержит нулевого значения, не содержит и клинически незначимых чисел. На этих основаниях можно уверенно говорить как о статистической, так и клинической значимости выявленных различий.

Проведя данное исследование, следует отметить достаточно несложное описание последовательности шагов статистического анализа данных, представленное в работе И.А. Зворыгина [1]. Также необходимо подчеркнуть, что в настоящее время применяются оба подхода к сравнению двух групп по количественному признаку: посредством проверки статистических гипотез и посредством расчета доверительного интервала. Если критерий Стьюдента помогает установить наличие различий между генеральными совокупностями, то с помощью доверительного интервала можно понять, насколько эти различия велики.  Оба подхода основаны на одних и тех же статистических принципах, поэтому в итоге дополняют друг друга.                                                                                                                                                                               

В своей дальнейшей студенческой и врачебной практике мы предполагаем так же пошагово строить свои рассуждения, как в изученной работе И.А. Зворыгина. В этом случае статистический анализ данных будет казаться не бесконечным набором сложных формул и непонятно откуда берущихся числовых значений, а доступным и даже увлекательным поиском закономерностей, понятным любому студенту, а в дальнейшем врачу.

Литература

1. Зворыгин И.А. Статистический анализ лабораторных данных //  Новости «Вектор-Бест»: информ. бюллетень. 2006. № 1 (13). С. 36-75.

2. Биометрия: учеб.-метод. пособие / сост. Г.А. Козлов, А.Е. Луньков, Б.А. Дворкин, С.В. Трубецкова. Саратов: Изд-во Сарат. мед. ун-та, 2012. 108 с.

3. Гланц С. Медико-биологическая статистика: практ. руководство / пер. с англ. Ю.А. Данилова. М.: Практика, 1998. 459 с.

4. Качество клинических лабораторных исследований. Новые горизонты и ориентиры / под ред. В.В. Меньшикова. М., 2002. 304 с.

Таблицы

Таблица 1  Расчет среднего значения и стандартного отклонения

Таблица 2  Концентрация гемоглобина у доноров

Показатели

Мужчины

Женщины

Число обследованных n

30

21

Диапазон значений, г/л

130-165

120-139

Среднее значение М

147,13

127,29

Стандартная ошибка среднего m

1,56

1,35

Стандартное отклонение s

8,54

6,21

Таблица 3  Оценка t-критерия для разности средних

Показатель

Значение

t-критерий (критерий Стьюдента) для разности средних

9,09

Критическое значение  t  для  a = 0,05  и  h = 49

2,01

Вероятность ошибки, p

< 0,001

Рисунки

<p> Нормальное распределение (распределение Гаусса)</p>
5
Ваша оценка: Нет Средняя: 5 (2 голоса)



Яндекс.Метрика