Наш адрес: |
Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...
|
|
ПОПУЛЯРНОЕ МНЕНИЕ ДОКТОРА НАУК БИОЛОГИИ ЯКУТСКА О СТАТИСТИКЕ...
Ошибки статистического анализа биомедицинских данныхЛеонов В.П. Международный журнал В статье рассмотрено много примеров ошибочного использования статистики в российской биологии и медицине. Дана классификация основных видов ошибок, обсуждаются обзоры по этой теме за предыдущие 50 лет. Дана классификация причин возникновения таких ошибок в биологии и медицине. С позиций меметики рассмотрены более 1500 статей, монографий и диссертаций, содержащих типичные ошибки использования и описания статистики. Приведены цепочки мемов с ошибочными описаниями методов сравнения средних и статистической значимости результатов и доверительной вероятности. Показано существование устойчивых мемов ошибочного описания статистики внутри отдельных научных школ, например в Сибирском государственном медицинском университете. Вводится новый тип мема - мем камуфляжного описания, используемый для маскировки неправильного применения статистики в медицинском исследовании. Установлено, что наиболее часто встречаются случаи ошибочного использования t-критерия Стьюдента, без необходимой проверки обязательных для этого условий. Наиболее часто подобные ошибки встречаются в публикациях журнала "Бюллетень экспериментальной биологии и медицины". Достаточно часто в российских публикациях приводятся описания некорректного применения многомерных статистических методов, таких как факторный и кластерный анализ. На основе анализа причин живучести таких ошибок в биомедицине, даны конкретные рекомендации по разрешению этой проблемы. Основным средством для этого является создание в медицинских исследовательских организациях лабораторий биостатистики.
Оглавление Ошибка – это …Ошибка или обман?Обзоры ошибок применения статистики в медицинеПричины возникновения ошибок и меры борьбы с нимиОшибки описания статистических методовМеметический анализ описаний методов статистикиЛокализация ошибочных описаний внутри научных школМемы камуфляжных описанийСмутно пишут о том, о чем смутно представляютКоварный t-критерий Стьюдента«… не зная законов языка ирокезского, можешь ли ты делать такое суждение по сему предмету…»Что же делать, чтобы избежать ошибок?
Коварный t-критерий СтьюдентаНужно делать так, как нужно, а как не нужно - делать не нужно. Винни-Пух.
Наибольшей популярностью при проверке гипотез о равенстве генеральных средних пользуется t-критерий Стьюдента. При чтении статей БЭБМ и «Вестника РАМН» складывается впечатление, что большинство авторов этих журналов знают и используют лишь t-критерий Стьюдента. Например, в выпусках БЭБМ за 1997 г. t-критерий использован в 125 статьях, тогда как корреляционный и дисперсионный анализ применен всего лишь в 15, критерий Колмогорова-Смирнова - в одной, парная линейная регрессия - в трех, точный критерий Фишера - в трех статьях. Как известно, использование t-критерия Стьюдента имеет два ограничения, а именно, нормальность распределения в обеих сравниваемых группах, и равенство генеральных дисперсий {Леонов, 2007}. Из 1562 проанализированных нами статей, монографий, диссертаций и авторефератов, авторы которых использовали t-критерий Стьюдента, упоминание о проверке нормальности распределения исследуемых признаков было только в 23 работах! О проверке второго ограничения – на равенство генеральных дисперсий упоминалось лишь в одной работе. Очевидно, что без наличия исходных данных читателю проверить факт нормальности распределения признаков, анализируемых в таких публикациях, невозможно. Наши исследования нормальности распределения биомедицинских признаков, проведенные в течение 20 лет более чем на 10 тысячах переменных, показали, что примерно 75% используемых переменных не подчиняются нормальному распределению. Проверка второго условия возможности применения t-критерия Стьюдента чаще всего для читателя доступна. Предположим, что анализируемые авторами признаки действительно подчиняются нормальному распределению. В этом случае для проверки второго требования – равенства генеральных дисперсий, необходимы лишь по два параметра из каждой из сравниваемых групп. Это выборочные дисперсии и объемы наблюдений. Используя их можно вычислить F-критерий Фишера и далее оценить достигнутый уровень значимости «р». Чаще всего авторы подобных публикаций приводят в таблицах объём наблюдений «n», и либо стандартное (среднеквадратичное) отклонение «s», либо ошибку среднего «m» для каждой из сравниваемых групп. В первом случае проверку гипотезы о равенстве генеральных дисперсий двух совокупностей можно произвести вычислив F-критерий Фишера по формуле F= s12/s22 , где s12 максимальная по величине дисперсия, а s22 – минимальная дисперсия. Во втором же случае используя значение «m» и «n» можно получить значение выборочной дисперсии s2 по формуле s2=m2*n для каждой из групп, и далее вычислить F-критерий Фишера. Наши исследования, а также результаты исследований других авторов, показывают, что в большинстве случаев для количественных признаков, изучаемых в биомедицине, характерно значительно увеличение дисперсии в опытной группе. Причем такое увеличение чаще всего сопровождается и увеличением среднего значения в опытной группе. Иногда же, увеличение дисперсии происходит и на фоне практически неизменного среднего.
В качестве примера такой послепубликационной проверки допустимости применения t-критерия Стьюдента рассмотрим табл. 1 из статьи {Новицкий В.В., Рязанцева Н.В., Семин И.Р., 2000}. В статье сообщается, что «Достоверность различий между сравниваемыми группами оценивали с использованием t критерия Стьюдента. … Измеряли внешний диаметр клетки и размер центральной впадины у 50 произвольно выбранных дискоцитов … ». Таблица 1Морфологические характеристики популяции эритроцитов (%) у больных психическими расстройствами по данным сканирующей электронной микроскопии (X ± m).
Примечание: * p < 0,001, ** p < 0,01 по сравнению с показателями у здоровых доноров;
В работе {Новицкий В.В., Рязанцева Н.В., Семин И.Р., 2000} ничего не сообщается ни о проверке нормальности распределения, ни о проверке равенства генеральных дисперсий (для всех признаков и во всех сравниваемых группах). Используя данные табл.1 проведем проверку гипотез о равенстве дисперсий для набора случайно выбранных пар. Ниже в табл.2. приведена лишь небольшая часть результатов проверки гипотез о равенстве дисперсий в 44 группах.
Таблица 2 Результаты проверки статистической гипотезы о равенстве генеральных дисперсий в двух сравниваемых группах
Аналогичные результаты были получены и при сравнении всех остальных пар. Поскольку достигнутый уровень значимости этих пар сравнений значительно меньше 5%, то гипотеза о равенстве дисперсий для этих случаев отвергается. Нередко величины дисперсий различаются между собой в десятки раз! Если даже предположить, что во всех 44-х сравниваемых группах наблюдалось нормальное распределение, что само по себе маловероятно, тем не менее, критерий Стьюдента не может быть использован в данных условиях вследствие неравенства генеральных дисперсий. Из чего следует, что выводы авторов {Новицкий В.В., Рязанцева Н.В., Семин И.Р., 2000} не могут быть признаны корректно обоснованными методами статистики, а стало быть, их надежность и ценность сомнительны. Отметим, что в данной работе авторы изучали 4 группы пациентов: здоровые доноры (контрольная группа); больные с непсихотическими расстройствами; больные с умственной отсталостью; больные с параноидной шизофренией. Между тем авторы использовали t-критерий Стьюдента, применяя его поочередно для разных пар групп сравнения, что для данного критерия, без использования специальных поправок, недопустимо. В результате такого приема возникает так называемая «ошибка множественных сравнений» (см. {Гланц С. Медико-биологическая статистика. 1999} стр. 113), приводящая к тому, что авторы будут чаще обнаруживать желаемое различие, нежели оно существует на самом деле. Данная ошибка является второй по распространенности после использования критерия Стьюдента без проверки двух имеющихся ограничений. И в результате ошибочные выводы вводят в заблуждение не только самих авторов подобных публикаций, но и читателей, на которых к тому же действует магия академических регалий авторов. «Врачам известно множество методов диагностики и лечения, эффективность которых была «доказана» статистическими методами и которые, тем не менее, канули в Лету, не выдержав испытания практикой. ... Вред, приносимый ошибками такого рода, очевиден. Исследователь заявляет о «статистически достоверном» эффекте лечения, редактор помещает статью в журнал, врач, неспособный критически оценить публикацию, применяет неэффективный метод лечения. В конце это цепи находится больной, который расплачивается за все, подвергаясь ненужному риску и не получая действительно эффективного лечения. Не следует сбрасывать со счетов и ущерб от самого факта проведения бессмысленных исследований. Деньги и подопытные животные приносятся в жертву науке, больные рискуют ради сбора ошибочно интерпретируемых данных» {Гланц С. Медико-биологическая статистика. 1999} стр. 24. Полагаю, что авторам подобных некачественных исследований стоит почаще вспоминать известный принцип «Не навреди»… О том, сколь значительно могут отличаться значения t-критерия и достигнутого уровня значимости «р», в случае ошибочного его использования, можно судить по результатам статистического анализа, проведенного автором этих строк на реальных данных, полученных в отделении ИБС НИИ Кардиологии Томского научного центра РАМН (см. табл. 3). Условные обозначения к табл.3: Х21 - отношение iR (периода изометрического расслабления) к длительности RR при пробе с дипиридамолом (ПД) перед началом лечения Z9 - толщина межжелудочковой перегородки после лечения, мм Z14 - конечный систолический объем в покое после лечения, мл Z15 - ударный объем в покое после лечения, мл Z16 - фракция выброса в покое после лечения, усл. ед. А5 - наличие (отсутствие) депрессии сегмента ST при ВЭМ А6 - наличие (отсутствие) депрессии сегмента ST при пробе ПД А7 - наличие (отсутствие) обызвествления коронарных артерий А10 - наличие (отсутствие) нарушений сердечного ритма А12 - наличие (отсутствие) нарушений сердечного ритма при пробе ПД.
Таблица 3 Результаты проверки гипотез о равенстве групповых средних различными критериями.
Как видим, для исследованных переменных принятие или отклонение гипотезы о равенстве генеральных средних в группах во многом определяется результатом проверки гипотезы о равенстве генеральных дисперсий. Литература Статья "Поверхностная архитектоника эритроцитов периферической крови у психически больных". Новицкий В.В., Рязанцева Н.В., Семин И.Р. Сибирский государственный медицинский университет, Томск. НИИ фармакологии Томского научного центра РАМН. Бюллетень экспериментальной биологии и медицины, вып. 10, 2000, стр. 429-432. Гланц С. Медико-биологическая статистика. М.: Практика, 1999, 459 с. Леонов В.П. Когда нельзя, но очень хочется, или Ещё раз о критерии Стьюдента. 2007, Биометрика. Далее: «… не зная законов языка ирокезского, можешь ли ты делать такое суждение по сему предмету…» |
Мониторинг качества научных медицинских публикаций Обращение межрегионального Общества специалистов доказательной медицины в ВАК РФ СТАТИСТИКА УМЕЕТ МНОГО ГИТИК. С.Е. Бащинский, главный редактор Международного журнала медицинской практики, 1998; №4, с.13-15. Отзывы исследователей по статистическому анализу данных Примеры оформления заказчиками базы данных, описания признаков и целей статистического анализа этой базы данных
Интересная ссылка В. Леонов. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ МЕДИКОВ И БИОЛОГОВ. (время и опыт) Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал медицинской практики, 2007, вып. 2, стр.19-35. В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года). Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г. НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов. Вестник Томского государственного университета, Серия "Математика. Кибернетика. Информатика", №275. АПРЕЛЬ 2002, стр. 17-24. Cамая читаемая наша статья после отправки более 300 писем авторам статей мед. журналов о наличии в них примитивных и ошибочных методов статистического анализа, и получаемых при этом результатах... В.П. Леонов. Камуфляжные мемы инфоценоза научных школ // Философия математики: актуальные проблемы. Материалы Международной научной конференции 15-16 июня 2007. Москва, Изд. Саван С. А., 2007. - с. 212-216. Очередной отзыв о нашем сотрудничестве Корнеевой Н.В., доцента кафедры факультетской терапии ДВГМУ г. Хабаровск. ВОЗМОЖНОСТИ БИОМЕТРИЧЕСКОГО АНАЛИЗА ВЗАИМОСВЯЗИ СОМАТИЧЕСКИХ ПОКАЗАТЕЛЕЙ И СИСТЕМАТИКИ ПСИХИЧЕСКИХ РАССТРОЙСТВ. Особенности развития органов растений фасоли в условиях освещения и темноты. Л. В. Ивлева, И.Ф. Головацкая, В.П. Леонов. ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ".НАУКОМЕТРИКА СТАТИСТИЧЕСКОЙ ПАРАДИГМЫ ЭКСПЕРИМЕНТАЛЬНОЙ БИОМЕДИЦИНЫ (ПО МАТЕРИАЛАМ ПУБЛИКАЦИЙ). В.П.Леонов.Cамая читаемая наша статья после отправки в мае м-це с.г. более 300 писем авторам статей мед. журналов о наличии в них примитивных и ошибочных методов статистического анализа, и получаемых при этом результатах... Чтобы не допускать ошибок в использовании и описании статистики в статьях и диссертациях, следует прочитать материалы представленные в КУНСТКАМЕРЕ - коллекции диссертаций и статей по медицине и биологии, с набором статистических ошибок и нелепостей. Экспозиция 1 Экспозиция 2 Экспозиция 3 Экспозиция 4 Экспозиция 5 Экспозиция 6 Статистика - это что? В. Леонов. «Применение методов статистики в кардиологии (по материалам журнала «Кардиология» за 1993–1995 гг.) Кардиология, 1998, № 1. В. Леонов. Статистика в кардиологии. 15 лет спустя. 15 лет назад, в 1998 году, в журнале «Кардиология» была опубликована наша статья «Применение методов статистики в кардиологии (по материалам журнала «Кардиология» за 1993–1995 гг.) В ней были проанализированы 426 статей кардиологической тематики. В новом обзоре проаналированы современные журнальные статьи кардиологической тематики. Учитывая то, что в настоящее время в России смертность от сердечно-сосудистых заболеваний более чем в 4 раза выше, чем в Европе, США и Японии, актуальной задачей является оценка эффективности использования статистики в российской кардиологии. Журнал "Медицинские технологии. Оценка и выбор", 2014, №1, с. 17-28. (Весь обзор одним файлом) ВАК для учёных? или ВАК для… бумагомарак? «ТРОИЦКИЙ ВАРИАНТ» № 8 (127), 2013 год. К середине 2017 года статью прочитали более 50 тысяч читателей. Сравниваем средние, а также и ... В. Леонов. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками. В. Леонов. Проценты - статистический анализ? Или проценты - арифметический анализ? Мотивом к написанию данной статьи стал следующий инцидент. 11 апреля 2016 г. я получил вот какое письмо... P.S. Сайт дополнен PDF-файлом полной версии данной статьи.
|
Сайт БИОМЕТРИКА создан в 1997 г. © Василий Леонов. E-mail:
Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.