16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц 14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц 14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы 17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц 03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц 30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц 06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц 08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы Если приходят, значит полезное находят.. Пишите нам на адрес |
Выбрав любое изображение, кликните по нему мышкой, и Вы прочитаете о том, как ...
|
Редактор БИОМЕТРИКИ В. Леонов |
Полезно: ... стоимость заявок по статистическому анализу баз данных
сокращена с июня месяца на 50% ...
Когда нельзя, но очень хочется,
После знакомства с разделом КУНСТКАМЕРА, особенно после разбора диссертаций "Организационно-методические условия оздоровительных занятий студенток специальной медицинской группы с диагнозом нейроциркуляторная дистония" и "Содержание микронутриентов у школьников г. Сургута", выполненных в Сургутском государственном университете, читатели присылают письма с вопросами о том, как избежать ошибок при использовании t-критерия Стьюдента. Они спрашивают, насколько сильно может повлиять на результат анализа игнорирование ограничений на данный критерий? Попытаемся вкратце ответить на эти вопросы в данной статье, рассматривая случай сравнения средних из двух независимых выборок, так называемый двухвыборочный t-критерий. К большому сожалению, в большинстве учебников, в которых рассматривается критерий Стьюдента, не акцентируется внимание читателей на ограничениях этого критерия, и на последствиях их нарушения. Напомним, что таких ограничений два. Во-первых, это нормальность распределения количественного признака в обеих сравниваемых группах. Многочисленные исследования свидетельствуют о том, что нормальное рспределение встречается далеко не часто. Вот как пишет об этом известный специалист в области прикладной статистики профессор А.И. Орлов в своей книге ЭКОНОМЕТРИКА (Издательство ЭКЗАМЕН, Москва, 2004. - 576 с.). "Приведённые описания экспериментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, что большинство применений критерия Стьюдента, ... строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин. Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при «незаконном» применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно; поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности". Именно Александр Иванович в своём письме от 4 апреля 1998 г. и обратил моё внимание на эту проблему. Во-вторых, равенство генеральных дисперсий в этих группах. Это условие также называется условием однородности дисперсий, или условием гомоскедастичности, буквально равнораспределённости (не путать с равномерным распределением!). Мы рекомендуем читателям следующие издания, в которых доступно рассмотрены как теория критерия Стьюдента, так и последствия нарушения этих ограничений:
Отметим, что наиболее доступное изложение обсуждаемых проблем, с примерами, дано в книге К.А. Браунли [3]. Итак, почему появились упомянутые выше ограничения? Первое ограничение вытекает из того, что распределение Стьюдента непосредственно связано с нормальным распределением. Достаточно подробно и популярно изложение этой связи приведено в книге [1]. Там же изложена и связь нормального распределения с такими распределениями, как распределение χ2(f) (Хи-квадрат) Пирсона и F-распределение Фишера-Снедекора. Если известно, что две совокупности подчиняются нормальному закону распределения, и имеют известные генеральные дисперсии σ12 и σ22, то в этом случае для двух выборок с объёмами наблюдений n1 и n2 можно проверить статистические гипотезы H0: μ1 = μ2. H1: μ1 ≠ μ2. Для этого вычисляется величина , которая имеет стандартное нормальное распределение. Однако в
реальных исследованиях генеральные дисперсии неизвестны. В этом случае для двух
нормально распределённых совокупностей вместо z-критерия мы получаем аналогичную дробь,
в которой знаменатель может иметь различный вид. Структура знаменателя такой
дроби будет зависеть от того, равны или не равны неизвестные нам генеральные дисперсии σx2 и σy2 . В этих случаях данное отношение может иметь
распределение Стьюдента, а может и не отвечать этому распределению. Напомним, что
распределение отношения нормальной случайной величины U к корню
квадратному из случайной величины χ2(f)/f, не зависящей от U, называется t-распределением Стьюдента с f степенями свободы. При этом
саму случайную величину записывают так:
. Рассмотрим первый случай, когда обе генеральные дисперсии хотя и неизвестны, но, тем не менее нулевая гипотеза об их равенстве, по результатам проверки соответствующими статистическими критериями, принимается. Пусть имеются две генеральные совокупности (популяции) в которых количественные признаки X и Y, описывают одно и то же свойство, характеристику анализируемых объектов. Из каждой совокупности взяты две выборки объёмом n1 и n2. Причём проверка гипотезы о законе распределения каждого из этих двух признаков с помощью соответствующих статистических критериев подтвердила нормальный закон (в обеих группах!). Далее, с помощью соответствующих статистических критериев проверена гипотеза о том, что генеральные дисперсии этих двух случайных величин равны между собой. В этом случае взаимно независимые нормально распределённые случайные величины, имеющие одну и ту же, но неизвестную нам, генеральную дисперсию σ2, имеют свои генеральные средние μ1 и μ2. Отметим, что эти генеральные средние нам также неизвестны. Кстати, если бы они нам были известны, то не возникла бы и необходимость использовать критерий Стьюдента для проверки статистической гипотезы о равенстве двух генеральных средних (математических ожиданий). По значениям случайных величин Х 1, Х2, …, Хn1 из первой выборки вычислим оценку генеральной дисперсии s12 , а по значениям случайных величин Y1, Y2, …, Yn2 из второй выборки вычислим оценку генеральной дисперсии s22 . В силу того, что обе случайные величины X и Y имеют нормальное распределение, их дисперсии будут подчиняться распределению Пирсона Хи-квадрат со степенями свободы df1=(n1–1) и df2=(n2–1) [1-3]. Как известно из курса математической статистики, сумма таких независимых случайных величин, подчиняющихся распределению Хи-квадрат, также имеет распределение Хи–квадрат, только с числом степеней свободы df=(n1+n2–2). Применив это свойство, произведём оценку генеральной дисперсии σ2 , используя обе выборки и обе выборочные средние. Обозначим такую обобщённую оценку генеральной дисперсии через «s2». Соответственно выборочное стандартное отклонение будем обозначать как «s». При указанных выше условиях и обозначениях, проверим статистическую гипотезу о равенстве двух генеральных средних при двусторонней альтернативной гипотезе: H0: μ1 = μ2. H1: μ1 ≠ μ2. В этом случае t-критерий Стьюдента имеет следующий вид [4]: (1) В числителе этой
дроби находится нормальная случайная величина, которая не зависит от случайной
величины , стоящей под корнем. В
свою очередь величина (n1 + n2 –
2)s2/ σ2 имеет распределение Хи-квадрат со степенью свободы df=(n1 + n2 – 2). В этом случае случайная величина t подчиняется распределению Стьюдента с числом степеней свободы df=(n1 + n2 – 2). Путём несложных преобразований выражение для критерия
Стьюдента можно преобразовать к более простому виду [4]:
(2) При проверке нулевой гипотезы о равенстве двух генеральных средних H0: μ1 = μ2 вычисляется t-критерий по формуле (3). Нулевая гипотеза отвергается в том случае, когда значение достигнутого уровня статистической значимости «р» для вычисленного t-критерия окажется меньше заданного критического уровня. Раньше, когда статистические пакеты не выдавали значение достигнутого уровня значимости «р», необходимо было сравнить модуль рассчитанной величины t-критерия Стьюдента с табличным, для числа степеней свободы df=(n1 + n2 – 2). Если эта величина была больше табличной, то нулевая гипотеза отвергалась. Теперь рассмотрим второй случай, когда обе совокупности подчиняются нормальному распределению, но проверка гипотез о равенстве двух генеральных дисперсий закончилась отвержением гипотезы равенства. Такую задачу сравнения двух генеральных средних при неравных генеральных дисперсиях принято называть проблемой Беренса-Фишера (по имени учёного У. Беренса опубликовавшего первую работу на эту тему в 1929 г.). В этом случае вместо одной общей генеральной дисперсии мы имеем дело с двумя неравными генеральными дисперсиями: σ12 ≠ σ22. Соответственно имеем и две выборочные дисперсии s12 и s22. Тогда искомая t-статистика будет вычисляться по следующему выражению [4]: (4) Введём обозначения: θ= σ12 / σ22 , u = s12 / s22 и N= n1/ n2 . В этом
случае выражение (4) можно переписать в следующем виде [4]:
(5). Основная сложность этого случая заключается в том, что подкоренное выражение в знаменателе не имеет Хи-квадрат распределение, и потому статистика t не имеет распределения Стьюдента. В 40-60-е годы 20 века Бокс, Уэлч, Саттерзвайт, Кохрэн, Боно, Шеффе и многие другие статистики провели детальный анализ этой проблемы. Так в 1938 г. Уэлч исследовал приближённое распределение статистики (4) и показал, что при равных объёмах выборок n1 = n2 незнание величины θ= σ12 / σ22 не очень сильно влияет на итоговый результат. Однако для случая неравных объёмов выборок ошибки становятся весьма значительными. Другие подходы позволяли аппроксимировать статистику (5) распределением Стьюдента с дробными степенями свободы. Приближённое решение задачи Беренса-Фишера о сравнении средних значений в двух нормальных выборках приведено в известной работе В.И. Пагуровой «О сравнении средних значений в двух нормальных выборках». Теория вероятностей и её приложения, т. XIII, вып. 3 (1968), с. 561-569. В реальных исследованиях некорректное использование критерия Стьюдента осложняется также и тем, что подавляющее большинство исследователей не только не проверяют гипотезу о равенстве генеральных дисперсий, но не выполняют проверку и первого ограничения: нормальности в обеих сравниваемых группах. В итоге авторы таких публикаций вводят в заблуждение относительно истинных результатов проверки равенства средних как себя, так и своих читателей. Добавим к этому ещё и игнорирование проблемы множественных сравнений. когда авторы проводят попарные сравнения для трёх и большего числа сравниваемых групп. Отметим, что подобной статистической неряшливостью страдают не только начинающие аспиранты и соискатели, но и специалисты облечённые различными академическими и руководящими регалиями: академики РАМН, ректоры медуниверситетов, доктора и кандидаты медицинских наук, и многие другие известные в медицине учёные. Особенно часто статьи с такими ошибками можно встретить в журнале "Бюллетень экспериментальной биологии и медицины" ( главный редактор академик РАМН, эксперт ВОЗ, член ВАК РФ, ректор РГМУ им. Н.И. Пирогова, профессор Ярыгин В.Н.), присутствующем в списке журналов ВАК, в котором должны быть опубликованы "основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук". Очевидно, что статьи авторов с такими регалиями, к тому же опубликованные в известном журнале, становятся объектом для подражания у начинающих исследователей, и эпидемия некорректного использования t-критерия Стьюдента приобретает всеобщий характер. Подтверждением этого служит обширная география такой статистической неряшливости: Казань, Краснодар, Красноярск, Москва, Нижний Новгород, Новосибирск, Санкт-Петербург, Томск, Тюмень, Хабаровск, Челябинск и т.д. 2018_4.rar Результатом игнорирования ограничений для t-критерия Стьюдента является заблуждение авторов статей и диссертаций, а далее и читателей этих публикаций, относительно истинного соотношения генеральных средних сравниваемых групп. Так в одном случае принимается вывод о значимом различии средних, когда они на самом деле не различаются, в другом - наоборот, принимается вывод об отсутствии значимого различия средних, когда такое различие имеется. Для демонстрации очень высокой вероятности таких заблуждений, возникающих при игнорировании авторами статей и диссертаций упомянутых выше ограничений, ниже приведены результаты проверки гипотезы о равенстве средних с помощью t-критерия Стьюдента для различных случаев. Анализ данных выполнялся в среде статистического пакета SAS 9. Первая серия результатов, представленных в файлах student_1.htm student_2.htm student_3.htm содержит итоги проверки гипотез о равенстве двух генеральных средних, полученные при анализе реальных данных. Эти данные были собраны при изучении злокачественной опухоли яичников (ЗОЯ) в одном из исследовательских центров г. Новокузнецка в выборке из 643 пациентов. Число исходных анализируемых признаков равнялось 98. Из них 39 признаков являлись дискретными, качественными, а 59 признаков – количественными. В каждом из 3 упомянутых выше файлов производится сравнение средних двух групп: 1-й стадии ЗОЯ и 4-й стадии ЗОЯ. В начале файла приводятся результаты проверки гипотезы нормальности распределения в каждой из сравниваемых групп. Проверка нормальности производилась с помощью критериев Шапиро–Уилка (Shapiro-Wilk), Колмогорова–Смирнова (Kolmogorov–Smirnov), Крамера–Мизеса (Cramer–von Mises) и Андерсона–Дарлинга (Anderson–Darling). Там же приводятся и различные описательные статистики (число наблюдений, среднее, медиана, мода, дисперсия и т.д.). Вторая часть каждого файла содержит результаты сравнения групповых средних, полученные с помощью F-критерия Фишера (однофакторный дисперсионный анализ), критерия Вилкоксона, критерия Краскела–Валлиса, критерия Ван дер Вардена, и трёх критериев Стьюдента. Первый критерий Стьюдента – классический, вычислялся в предположении равенства двух генеральных дисперсий (Equal), а второй критерий (аппроксимация Satterthwaite) и третий критерий (аппроксимация Cochran) вычислялись в предположении неравенства генеральных дисперсий. Наконец, в конце каждого файла приводится результат проверки гипотезы равенства генеральных дисперсий с помощью F-критерия Фишера. Вторая серия файлов – student_4.htm student_5.htm student_6.htm , содержит результаты сравнения средних двух групп при изучении метаболического синдрома (МС). Массив данных был получен в одном из исследовательских центров г. Барнаула, и содержал выборку из 1289 пациентов, каждый из которых описывался 35 признаками. Из них 6 признаков были качественными, и 29 количественных признаков. Сравнивалась между собой группа с наличием МС и группа без МС. Структура этих 3-х файлов идентична описанным выше. Обращаем внимание читателей на то, что дисперсионный анализ (ANOVA) и классический t–критерий Стьюдента являются параметрическими методами, требующими для своей реализации нормальность распределения в каждой из сравниваемых групп, а также равенство генеральных дисперсий в этих группах. Тогда как остальные критерии сравнения – Вилкоксона, Краскела-Валлиса и Ван дер Вардена, являются непараметрическими критериями, которые не требуют нормальности распределения. Поэтому представляет интерес результат сравнения двух групп с помощью трёх разновидностей критерия Стьюдента, и трёх непараметрических критериев. Особенно в тех случаях, когда выполняется требование нормальности, но не выполняется требование равенства генеральных дисперсий. В некоторых из этих файлов мы комментируем результаты сравнения. В других же предоставляем читателям возможность самим сделать соответствующие выводы. Краткая сводка результатов по всем 6 файлам приведена в файле STUDENT.xls . Сравнение результатов приведённых в этих 6 файлах убедительно показывают, что совпадение или несовпадение результатов полученных критериями Стьюдента и непараметрическими критериями зависит от трёх основных факторов: 1. Нормальности распределения в обеих сравниваемых группах; 2. Равенства генеральных дисперсий в сравниваемых группах; 3. Соотношения объёмов наблюдений в двух сравниваемых группах. Задавая для каждого из этих факторов по два уровня («есть нормальность» и «нет нормальности», «есть равенство дисперсий» и «нет равенства дисперсий», «объёмы выборок равны» и «объёмы выборок неравны»), мы получим 2*2*2=8 вариантов комбинаций этих трёх факторов. Используя процедуры генерации случайных величин, были сгенерированы несколько выборок, отвечающих данным комбинациям трёх факторов. Ненормальные распределения имели выраженную асимметрию, что очень часто встречается для количественных признаков в медицине и биологии, особенно для экспериментальных групп. Ниже в таблице приведены комбинации этих трёх параметров и имена 8 файлов с результатами анализа.
Краткая сводка результатов по всем 8 файлам приведена в файле STUDENT_7.xls . Полагаю, что внимательные и вдумчивые читатели, а именно для таких читателей и написана эта статья, не только ознакомятся с этими файлами, но и внимательно изучат их. Надеюсь, что полученная при этом информация поможет им при анализе собственных экспериментальных исследований избежать повторения тех ошибок, что систематически допускают упомянутые выше исследователи. Итак, когда исследователь предполагает использовать критерий Стьюдента для проверки гипотез о равенстве средних в двух группах, рекомендуем учитывать ту информацию, которую мы обсуждали в этой статье. И при этом понимать, что априорно оценить сколь велика будет ошибка обусловленная игнорированием имеющихся ограничений, практически невозможно. Лишь сравнение результатов использования нескольких критериев, подобное тому, что было сделано нами, может дать ответ на этот вопрос. Необходимо помнить, что проявляя статистическую неряшливость, ввести в заблуждение одного человека, в частности, самого себя, достаточно легко. Однако гораздо труднее ввести в заблуждение многих будущих читателей, которые, ознакомившись с этими материалами, будут оценивать как авторские выводы, так и самого автора, гораздо строже, нежели сами авторы оценивают надёжность своих результатов... Примеры 6 результатов сравнения: student_1.htm student_2.htm student_3.htm В. Леонов. 01.02.2007. Запрос на выполнение анализа данных направляйте на электронный адрес Желательно при этом в своём письме выслать исходные данные в EXCEL-файле с их описанием в формате Word-файла (см. подборку примеров Пример 1, Пример 2, Пример 3 с данными и их описаниями). Вы можете ознакомиться с коллекцией отзывов ряда исследователей, которые уже обращались к нам с такими просьбами, и получили результаты анализа их массивов данных. |
... стоимость заявок по НЦ БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее ) Отзывы исследователей по статистическому анализу их баз данных Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ (время и опыт). Применение методов статистики в кардиологии. (по материалам журнала "Кардиология" за 1993 - 1995 гг). Леонов В.П. Журнал "Кардиология", том 38, 1, 1998. Статистика в кардиологии. 15 лет спустя. Леонов В.П. 15 лет назад, в 1998 году, в журнале «Кардиология» была опубликована наша статья «Применение методов статистики в кардиологии (по материалам журнала «Кардиология» за 1993–1995 гг.) В ней были проанализированы 426 статей кардиологической тематики. Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов. В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь? Примеры отличных диссертаций и статей по медицине и биологии, с нашими результатами статистического анализа
О.Я. Васильцева ЗАКОНОМЕРНОСТИ ВОЗНИКНОВЕНИЯ, КЛИНИЧЕСКОГО ТЕЧЕНИЯ И ИСХОДОВ ТРОМБОЭМБОЛИИ ЛЕГОЧНОЙ АРТЕРИИ ПО ДАННЫМ ГОСПИТАЛЬНОГО РЕГИСТРА ПАТОЛОГИИ. Г.А. Попова СРАВНИТЕЛЬНОЕ ИЗУЧЕНИЕ ПОДВИДОВ LINUM USITATISSIMUM L . В УСЛОВИЯХ ЗАПАДНОЙ СИБИРИ. (диссертация на соискание учёной степени кандидата биологических наук). А.Г. Сыркина Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук). В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года). Фоторепортаж с Конференции по доказательной медицине в Ереване. Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года). Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г. Новые полезные книги... (Заказать книгу можно через издательство) Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с. Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с. Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова. Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова. Долгое прощание История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали. Дж. Максвелл Коммунистическая идеология, уродовавшая многие направления отечественной науки на потребу вождей, породила и такое явление, как лысенковщина. Для большинства читателей фамилия Лысенко ассоциируется с августовской сессией ВАСХНИЛ 1948 г. и разгромом генетики. Однако лысенковщину нельзя сводить только к запрету на генетику. Достигнув своего апогея в середине текущего века, и став воистину периодом средневековья в отечественной биологии и медицине, лысенковщина изуродовала и методологию этих наук, изгнав из них в частности математику, и в первую очередь статистику. Последствия этого уродства и по сей день не позволяют биологии и медицине приблизиться к статусу точных наук. В статье описаны основные этапы этого явления и особенности методологии применения статистики в биологии и медицине, полученные автором при анализе нескольких сот диссертаций и монографий а также более 1500 статей в области экспериментальной биомедицины. Ключевые слова: лысенковщина, биология, медицина, статистика, биостатистика, методологический кризис.
... стоимость заявок по |
Сайт БИОМЕТРИКА создан в 1997 г. © Василий Леонов. E-mail:
Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.
Отклики читателей статьи "Доказательная или сомнительная?"
Т. Кун "Структура научных революций"