Предисловие
Предисловие к русскому изданию
Введение к первому изданию
Глава 1. Зачем читать медицинские статьи?
1.2. Почему многие люди тяжело вздыхают, когда вы говорите о доказательной медицине?
1.3. Перед тем как начать, сформулируйте проблему
Литература
Глава 2. Поиск литературы
2.2. База данных Medline
2.3. Задача 1: Вы пытаетесь найти определенную статью, которая, как вы знаете, существует
2.4. Задача 2: Вам необходимо ответить на специфический клинический вопрос
2.5. Задача 3: Вы хотите быстро получить общую информацию на определенную тему
2.7. Задача 5: В результате поиска вы не получаете никаких статей или получаете, но не так много, как ожидали
2.8. Задача 6: Вы не знаете, где начать поиск
2.9. Задача 7: Попытки ограничить число записей приводят к потере важных статей и не позволяют исключить статьи низкого методологического качества
2.10. Задача 8: Несмотря на тщательный поиск, в базе данных Medline ничего не найдено
2.11. Кокрановская библиотека
Литература
3.1. Ученый и мусорная корзина
3.2. Три первых вопроса
3.3. Рандомизированные контролируемые испытания
3.4. Когортные исследования
3.5. Исследования «случай—контроль»
3.6. Поперечные исследования
3.7. Описания случаев
3.8. Традиционная «иерархия доказательств»
3.9. Этические замечания
Литература
Глава 4. Оценка методологического качества
4.2. О ком говорится в исследовании?
4.3. Хорошо ли исследование спланировано?
4.4. Удалось ли в исследовании избежать систематических ошибок или минимизировать их?
4.5. Была ли оценка «слепой»?
4.6. Задавались ли предварительные статистические вопросы?
4.7. Выводы
Литература
Глава 5. Статистика для неспециалиста
5.2. Корректно ли авторы выбрали схему исследования?
5.4. Корреляция, регрессия и причинность
5.5. Вероятность и доверие
5.7. Резюме
Литература
Глава 6. Испытания лекарственных средств
6.2. Решение о выборе лечения
6.3. Суррогатные конечные точки
6.4. Как получить достоверную информацию от представителя фармацевтической фирмы
Литература
Глава 7. Диагностические и скрининговые исследования
7.2. Сравнение диагностического исследования с «золотым стандартом»
7.3. Десять вопросов, которые нужно задать о работе, оценивающей диагностический или скрининговый тест
7.4. Отношение правдоподобия
Литература
8.1. Когда обзор считается систематическим?
8.2. Оценка систематических обзоров
8.3. Мета-анализы для людей, не занимающихся статистикой
8.4. Объяснение гетерогенности
Литература
9.1. Большие споры о клинических рекомендациях
9.2. Изменяют ли клинические рекомендации поведение врача?
9.3. Вопросы, которые необходимо задать о коллекции рекомендаций
Литература
10.1. Что такое экономический анализ?
10.2. Измерение затрат и пользы медицинских вмешательств
10.3. Десять вопросов, которые необходимо задать для оценки экономического анализа
10.4. Заключение
Литература
11.1. Что такое качественные исследования?
11.2. Оценка статей, посвященных качественным исследованиям
11.3. Заключение
Литература
Глава 12. Внедрение доказательной медицины
12.2. Изменение поведения медицинских работников
12.3. Управление изменениями для достижения эффективной клинической практики: данные исследований по организационным изменениям
12.4. Научно обоснованная организация: вопросы культуры
12.5. Теории изменений
12.6. Приоритеты для дальнейших исследований процесса внедрения доказательной медицины
Литература
Приложение 1. Проверочный лист. Поиск, критическая оценка и внедрение доказательств
Приложение 2. Поисковые фильтры по методологическому качеству статей
Приложение 3. Максимально чувствительные стратегии поиска
Приложение 4. Оценка эффектов вмешательства
Содержание
Текст
                    HOW TO READ A PAPER
The basics of evidence based medicine
Second edition
TRISHAGREENHALGH
Department of Primary Care and Population Sciences Royal
Free and University College Medical School
London, UK
вмт
Books %J


Триша Гринхальх ©сеншвы доказательной медицины Рекомендовано УМО по медицинскому и фармацевтическому образованию вузов России в качестве учебного пособия для студентов высших медицинских учебных заведений и системы послевузовского профессионального образования Москва ИЗДАТЕЛЬСКАЯ ГРУППА «ГЭОТАР-Медиа» 2006
УДК61Ю01.8 ББК51 Г85 Рецензенты: Докт. мед. наук, проф., директор Российского отделения Кокрановского сотрудничества В.В. Власов, докт. мед. наук, проф. кафедры эпидемиологии ММАим. И.М. Сеченова Н.И. Брико Редактор перевода КИ. Сашпкулов ГринхальхТ. Основыдоказательноймедицинь1:Пер.сангл. — М.: ГЭОТАР-Медиа, YS5 2006.-240с:ил. ISBN 5-9704-0274-5 (рус.) ISBN 0-7279-1578-9 (англ.) Эта книга —самое популярное введение в предмет доказательной медицины, завоевавшее признание читателей во многих странах мира и переведенное на 8 языков. Она позволит читателю получить ясное представление о предмете доказательной медицины, ее методах и о том, какое место она занимает в медицинском образовании и работе практикующего врача. Прочитав эту книгу, врач научится правильно формулировать клинические вопросы по проблемам, с которыми он сталкивается, и находить ответы на эти вопросы. На конкретных примерах описаны методы поиска сведений в базе данных Medline и других источниках информации. Большая часть книги посвящена критической оценке медицинской литературы (качеству исследования, его результатам и применимости результатов по отношению к конкретному больному). Доступным и остроумным языком описано как оценивать клинические испытания лекарственных средств, диагностические и скрининговые тесты, систематические обзоры, клинические рекомендации и экономические анализы. Последняя глава посвящена внедрению достижений доказательной медицины в клиническую практику и организацию здравоохранения. Предназначена студентам и преподавателям медицинских вузов, организаторам здравоохранения и практикующим врачам всех специальностей. УДК 61:001.8 ББК51 Права на данное издание принадлежат издательской группе «ГЭОТАР-Медиа». Воспроизведение и распространение в каком бы то ни было виде части или целого издания не могут быть осуществлены без письменного разрешения правообладателей. Учебное издание Гринхальх Триша Основы доказательной медицины ISBN 5-9704-0274-5 (рус.) © BMJ Books, 2001 ISBN 0-7279-1578-9 (англ.) © Издательская группа «ГЭОТАР-Медиа», 2006
Дорогие коллеги! Перед Вами «Основы доказательной медицины» — перевод с английского 2-го издания наиболее популярного в мире руководства по доказательной медицине (Т. Гринхальх, 2001). За 7 лет с момента первого издания в 1996 г. эта книга была переведена на 8 языков (испанский, итальянский, китайский, немецкий, русский, французский, чешский, японский) и напечатана большими тиражами. Она завоевала признание практикующих врачей, преподавателей, студентов, по ней ведется преподавание доказательной медицины во многих медицинских школах. Такой успех обусловлен тем, что руководство обучает врача находить, критически оценивать и использовать медицинскую информацию для принятия рациональных клинических решений. В таких навыках остро нуждаются врачи в условиях взрывного роста медицинской информации, появления новых лекарственных препаратов, диагностических методов и агрессивной рекламы фармацевтических компаний. Неумение проводить критический анализ повышает вероятность врачебных ошибок и нерациональных решений, что ведет к снижению качества медицинской помощи. Благодаря развитию клинической эпидемиологии и информационных технологий появилась также возможность основывать клиническую практику на количественном и качественном анализе мировых научных данных, а не только на интуиции, клиническом опыте и традициях отдельных научных школ. Это направление получило название доказательной медицины. Автор книги Триша Гринхальх — специалист в области доказательной медицины, преподаватель медицинской школы Университета Лондона и врач общей практики. Книга написана живым, ясным, остроумным язы- 5
ком и иллюстрирована многочисленными примерами. В руководстве даны определения ключевых терминов, описаны распространенные способы принятия решений в клинической практике, методы поиска сведений в медицинской литературе. Большая часть книги посвящена критической оценке диагностических, скрининговых, лечебных исследований. Критическая оценка позволяет врачу определять высококачественные исследования (доказательства), на основании которых можно ранжировать клинические утверждения по уровню достоверности и принимать решения. В отдельной главе приведены методы разработки и оценки лучших доказательств — систематических обзоров. Описаны также создание и внедрение клинических рекомендаций — систематически разработанных документов, описывающих действия врача в стандартных клинических ситуациях и помогающих ему принимать рациональные решения. Последняя глава посвящена внедрению достижений доказательной медици ны в практику здравоохранения. В 2003 г. Минздравом России утверждена программа управления качеством медицинской помощи. В рамках этой программы создаются и внедряются клинические рекомендации и протоколы ведения больных, основанные на доказательной медицине. Первым опытом было издание в 2001 г. адаптированного перевода международных клинических рекомендаций. Отечественные клинические рекомендации, основанные на доказательной медицине и удовлетворяющие международным требованиям, будут выпущены уже в 2003 г. Руководство «Основы доказательной медицины» поможет практикующим врачам участвовать в разработке таких документов, критически оценивать и применять их на практике. Издание этой книги на русском языке очень своевременно. Уверен, что полученные знания окажут Вам неоценимую помощь, будут способствовать повышению качества медицинской помощи и пойдут на пользу Вашим пациентам. Министр здравоохранения РФ 0 x^z^^^' Шевченко И/Л //20.11.2003 г.
Предисловие к русскому изданию Мне было приятно услышать, что моя книга «How to Read a Paper» (в оригинале «Как читать научные статьи») переведена на русский язык. Таким образом, она издана уже на 9 языках (английский, итальянский, испанский, французский, немецкий, японский, китайский, чешский и русский) и с момента ее первого издания в 1996 г. выдержала 26 тиражей. При поддержке благотворительных организаций английская версия книги распространялась в развивающихся странах Юго-Восточной Азии и Африки. Английский язык (на самом деле американский язык) доминирует в медицинской литературе. В прошлом англоговорящие авторы игнорировали или отвергали (а чаще всего просто не могли найти) работы, опубликованные на других языках. На страницах этой книги я обсуждаю это неприемлемое смещение применительно к систематическим обзорам. «В процессе поиска статей следует избегать лингвистического империализма — это важно как с научной, так и с политической точки зрения. Выражениям типа "Eine Placebo-kontrolierte Doppel-blindstudie" (нем.) или "une etude randomisee a double insu face au placebo" (фр.) следует уделять такое же внимание, как и фразе "двойное слепое рандомизированное контролируемое испытание"». Знания, которые дает эта книга, не являются новыми для российской медицинской общественности. Как же мне оправдать издание книги, написанной английским исследователем, в стране, имеющей собственных экспертов и славные научные традиции? Думаю, эта книга имеет одну уникальную черту, отсутствующую в других изданиях: она написана НЕПРОФЕССИОНАЛОМ (я не эпидемиолог, не статистик, я врач общей практики) и предназначена для НЕПРОФЕССИОНАЛОВ. Эту книгу я решила написать потому, 7
что мои студенты признались: ВОСХИЩАЯСЬ различными книгами по доказательной медицине (большая часть этих книг написана международными экспертами), они на самом деле их не понимают. Справедливая критика этой книги — она не дает читателям глубокого понимания статистических методов. Если вы ищете такую книгу, «Основы доказательной медицины» не для вас. Но, как поняли мои студенты, большинство экспертов не смогли сделать то, что делает это издание — представить основы доказательной медицины читателю, который с трудом понимает количественные методы. Инструменты статистиков — числа формулы, а инструменты практикующего врача — слова. «Основы доказательной медицины», возможно, единственная книга, расшифровывающая ключевые понятия клинической эпидемиологии словами, а не числами. Есть и другая причина, по которой я могу объяснить издание этой книги в вашей стране. Обмен знаниями, идеями и подходами между учеными и странами — безусловно достойнейшая цель. Я предлагаю особенный подход к доказательной медицине, особенный авторский стиль — некоторым читателям он понравится (а некоторым, возможно, нет). Конечная цель каждого читателя — найти книгу, удовлетворяющую его предпочтениям и стилю обучения. Должна признаться, что, хотя я восхищаюсь многими российскими учеными, я никогда не была в вашей стране! Я незнакома с системой здравоохранения, с ролями различных исполнителей, особенностями заболеваний, надеждами пациентов, их страхами и ожиданиями. Некоторые советы, приведенные в этой книге, могут в меньшей степени соответствовать России по сравнению с Англией, где эта книга была написана. Вам придется интерпретировать эту книгу с учетом этого обстоятельства, принимая во внимание вашу культуру и медицинские традиции. Я глубоко польщена тем, что российские эксперты потратили время на перевод этой книги и что идеи, указанные в ней, уже внедряются в практику, в частности издательским домом «ГЭОТАР-МЕД». Д-р Ка- миль Сайткулов осуществил часть перевода и редактирование книги, что свидетельствует о растущем энтузиазме среди молодых российских врачей к обучению навыкам доказательной медицины. Проф. Василий Леонов из Томска перевел главу по медицинской статистике, а проф. Василий Власов (директор Российского отделения Кокрановского сотрудничества) выступил рецензентом.
Надеюсь, что многие из вас (особенно, те, кто как и я, думает словами, а не числами) достигнут более глубокого понимания предмета и что это пойдет на пользу вашим пациентам. Профессор Триша Гринхальх, Лондон, май 2003
Введение к первому изданию Неудивительно, что широкое распространение, которое получил термин «доказательная медицина» было встречено смешанными реакциями тех, кто вовлечен в оказание медицинской помощи. Значительная часть медицинской общественности слегка уязвлена этой идеей, предполагающей, что до недавнего времени вся медицинская практика представляла то, что Lewis Thomas описывал как фривольное и безответственное экспериментирование на человеке, основанное ни на чем другом, кроме проб и ошибок, которые происходят именно в такой последовательности. С другой стороны, политики и те, кто управляет медицинской помощью, приветствовали это движение с огромным энтузиазмом. Они уже давно подозревали, что врачи абсолютно некритичны и теперь они получили этому подтверждения на бумаге. Доказательная медицина появилась как дар богов: как они подумали, что она предназначена для снижения затрат. Тем не менее идея контролируемых клинических испытаний и доказательной медицины не нова. Известно, что Фредерик II, император римлян и Король Сицилии и Иерусалима, живший с 1192 до 1250 г. и интересовавшийся эффектами физических упражнений на пищеварение, взял двух рыцарей и дал им одинаковую пишу. После этого одного из них он отправил охотиться, а другого — в постель. Через несколько часов он умертвил обоих рыцарей и изучил содержимое их пищеварительного тракта; в желудке спящего рыцаря пищеварение происходило более интенсивно. В XVII веке Жан Баптиста ван Хельмонт, врач и философ, оспорил практику кровопускания. Он предложил, наверное, первое клиническое испытание с большим числом участников, рандомизацией и статистическим анализом. Предполагалось вовлечение 200-500 бедных людей, которых планировалось разделить случайно путем жребия на две 10
группы, в одной из которых избегалась флеботомия, а в другой — пациентам делали столько кровопусканий, сколько врачи считали нужным. Эффективность кровопускания предполагалось оценивать по числу похорон в каждой группе. История умалчивает, почему этот замечательный эксперимент не был выполнен. Современная научная медицина имеет корни в Париже середины Х1Хстолетия в работах и учении Пьера Шарля Александра Луи (Pierre Charles Alexandre Louis). Он ввел принципы статистического анализа в оценке медицинского лечения и показал, что кровопускание является бесполезным видом лечения, хотя это не изменило привычки врачей в то время и на протяжении долгого времени с тех пор. Несмотря на эту пионерскую работу, очень мало врачей по обе стороны Атлантики призывали к тому, чтобы были приняты испытания клинических исходов, хотя принципы количественного экспериментального дизайна были введены в 20-х годах Рональдом Фишером (Ronald Fisher). Эта область начала оказывать существенное влияние на клиническую практику только после Второй мировой войны после работы сэра Аустина Брадфорда Хилла (Austin Bradford Hill) и его последователей, британских эпидемиологов, в особенности Ричарда Долла (Richard Doll) и Арчи Кокрейна (Archie Cochrane). Но, хотя идея доказательной медицины не является новой, современные эксперты, такие, как Дэвид Сакетт и его коллеги, приносят большую пользу клинической практике, не просто популяризируя идею, но уверяя врачей в том, что это не сухой академический предмет, а больше образ мышления, который должен проникнуть в каждый аспект медицинской практики. Значительная ее часть основывается на крупных испытаниях и мета-анализах. Она также должна использоваться для влияния на все, что делает врач. В конце концов многие годы нам промывали мозги экзаменаторы в медицинских школах, заставляя поверить, что есть только один способ обследования пациента. Ритуалы, которые мы исполняем у постели больного, можно было также критично оценивать, как наши операции и схемы назначения лекарственных средств; то же самое можно сказать в отношении любого другого аспекта клинической практики. По мере того как клиническая практика становится более интенсивной, а время для чтения и размышления еще более ценным, способность эффективно использовать медицинскую литературу становится основополагающим навыком врача. В этой замечательной книге Триша Грин- хальх представляет прекрасный подход, как лучше всего использовать 11
медицинскую литературу и пользу от доказательной медицины. Эта книга предназначена и студентам-первокурсникам, и убеленным сединами пожилым врачам. Проходят годы, и привилегия быть приглашенным к написанию введения в книгу одного из бывших студентов становится не такой уж редкой. Триша Гринхальх была такой студенткой, которая никогда не позволяла своим учителям уходить расслабляться, и это любознательное отношение с годами процветало. Это замечательная и своевременная книга, и я желаю ей того успеха, которого она заслуживает. В конце концов, идея доказательной медицины — это не что иное, как состояние мышления, которое каждый учитель надеется развить в своих студентах. Скептический, но конструктивный подход д-ра Гринхальх предполагает, что такой счастливый исход возможен, по крайней мере, однажды в течение жизни профессора медицины. Профессор сэр Дэвид Уэзерол 12
Глава 1 Зачем читать медицинские статьи? 1.1. «Доказательная медицина» — только чтение медицинских статей? Доказательная медицина (медицина, основанная на доказательствах) — гораздо больше, чем просто чтение статей. Согласно наиболее популярному определению, это «сознательное, четкое и беспристрастное использование лучших из имеющихся доказанных сведений для принятия решений о помощи конкретным больным»1. Такое определение полезно, но оно упускает один важный аспект предмета доказательной медицины — применение математических методов. Даже если вы почти ничего не знаете о доказательной медицине, вы наверняка слышали, что в ней много чисел и пропорций! Анна Дональд и я недавно сформулировали другое определение: «Доказательная медицина — это усиление традиционных навыков клинициста в диагностике, лечении, профилактике и других областях путем систематического формулирования вопросов и применения математических оценок вероятности и риска»2. В решении проблем оказания медицинской помощи вашим пациентам (и вопросов планирования/закупок, относящихся к группам пациентов, если вы работаете в сфере общественного здоровья) вы следуете доказательному подходу, если задаете вопросы о научных доказательствах, систематически ищете ответы на эти вопросы и в соответствии с этим меняете свою практику. Вопросы могут касаться: симптомов («какова вероятность серьезного сердечного нарушения у мужчины 34 лет с болью в левой половине грудной клетки и будет ли оно выявлено при исследовании ЭКГ в покое»); физикальных или диагностических признаков [«указывает ли наличие мекония (свидетельствующее о движениях кишечника у плода) в амниотической жидкости на существенное ухудшение состояния плода при нормальных родах»]; прогноза заболевания («если у бывшего до 13
этого здоровым двухлетнего ребенка развился короткий судорожный припадок, связанный с лихорадкой, какова вероятность, что он в дальнейшем будет страдать эпилепсией»); лечения («перевешивает ли польза тромболитических препаратов риск их применения у больных с острым инфарктом миокарда независимо от возраста, пола и этнического происхождения»); эффективности затрат («какие действия следует предпринять для уменьшения числа самоубийств: нанять больше психиатров, больше медсестер или больше консультантов?») и множества других аспектов здоровья и медицинских услуг. Профессор Дэвид Сакет (David Sackett) во введении в первый выпуск журнала «Доказательная медицина»3 сформулировал основные аспекты новой науки — доказательной медицины. • Перевести потребности в информации в вопросы, на которые можно найти ответ (т.е. сформулировать задачу). • Выявить лучшие обоснованные (доказательные) сведения для ответа на эти вопросы (из клинического обследования, диагностических лабораторных исследований, опубликованной литературы и других источников). • Критически оценить доказательные сведения (т.е. взвесить их) на предмет достоверности (близости к истине) и полезности (клинической применимости). • Внедрить результаты этой оценки в клиническую практику. • Оценить результаты проделанной работы. Таким образом, доказательная медицина требует от вас не просто чтения статей, а чтения нужных статей в нужное время и затем предполагает изменение вашего поведения (и, что гораздо сложнее, поведения других людей) в свете полученной информации. К сожалению, множество обучающих курсов по доказательной медицине часто концентрируется на 3-м этапе (критическая оценка литературы) вплоть до исключения всех остальных этапов. Если вы неправильно формулируете вопрос или неправильно ищете ответы, вы можете вообще не читать статей. Обучение методам поиска и критической оценки — пустая трата времени, если вы не вкладываете по крайней мере столько же усилий во внедрение доказательных сведений и измерение пути, пройденного в направлении к вашей цели. Если бы я педантично следовала названию книги, эти аспекты доказательной медицины даже не были бы в ней упомянуты. Наверное, вы бы потребовали назад заплаченные за книгу деньги, если бы я упустила завершающую часть этой главы («Перед тем, как начать, сформулируй- 14
те проблему»), главу 2 («Поиск литературы») и главу 12 («Внедрение доказательных сведений»). Главы 3—11 описывают 3-й аспект доказательной медицины — критическую оценку, т.е. что вам следует делать, когда перед вами лежит научная статья. Если вы работаете на компьютере и хотите изучить предмет доказательной медицины в Интернете, можете обратиться к приведенным ниже интернет-ресурсам. Если нет, не переживайте (также не переживайте, когда обнаружите в Интернете более 200 сайтов, посвященных доказательной медицине, - все они предлагают очень схожие материалы, и, конечно, все ресурсы посещать не обязательно). • Оксфордский центр доказательной медицины. Хороший веб-сайт, содержащий множество ресурсов и отсылок на другие сайты, посвященные доказательной медицине, http://www.cebm.net • РОЕМ (от англ. Patient Oriented Evidence that Matters — пациент- ориентированные важные сведения). Краткие аннотации доказательных сведений, прямо влияющих на медицинскую помощь больным; составляются Американским журналом семейной медицины, http://www.infopoems.com/ • SCHARR Auracle — Шеффилдский центр здоровья (Великобритании). Поиск информации, хорошо представленные отсылки на другие сайты, посвященные доказательному здравоохранению, http:// www.shef.ac.uk/uni/academic/R-Z/scharr/ir/abookmrk.html 1.2. Почему многие люди тяжело вздыхают, когда вы говорите о доказательной медицине? Критики называют доказательную медицину «все более модным направлением, исходящим от молодых, самоуверенных и крайне многочисленных медиков, стремящихся принизить работу опытных клиницистов путем сочетания эпидемиологического жаргона и манипуляций статистическими методами». Согласно другому критическому определению, «доказательная медицина — это рьяно представляемый следующий довод: ни одно медицинское вмешательство не может быть произведено врачом, медсестрой или кем-либо, пока не будут опубликованы результаты нескольких крупных и дорогих испытаний или утвержденные комитетом экспертов рекомендации». Некоторые критики делают еще более жесткие заявления: «Доказательная медицина стремится заменить первоначальные данные субъективно отобранными, произвольно обобщенными, «перестиранными» и смещенными выво- 15
дами неопределенной достоверности и полноты. Доказательная медицина осуществляется людьми неизвестных способностей, опыта и навыков с использованием методов, неясность которых препятствует оценке первоначальных сведений»4. Возмущение многих медиков движением в поддержку доказательной медицины5,6 чаще всего обусловлено осознанием того, что врачи (медсестры, акушерки, физиотерапевты и др.) принимали неграмотные решения до тех пор, пока не познакомились с методами доказательной медицины. Любой, кто работает с больными, знает, как часто перед принятием клинического решения приходится искать новую информацию. С тех пор как были открыты библиотеки, врачи проводят в них много времени. Мы не назначаем больному новый лекарственный препарат, не имея сведений о его эффективности (помимо прочего, применение нелицензиро- ванного препарата остается, строго говоря, незаконным). Казалось бы, все мы годами практиковали доказательную медицину, за исключением случаев, когда мы умышленно занимались обманом (использовали эффект плацебо по медицинским причинам), болели, были переутомлены или просто ленились. Нет, мы не практиковали доказательную медицину. Несколько исследований поведения врачей и медсестер7-10 однозначно показали: клинические решения редко основываются на лучших имеющихся сведениях. В начале 1980-х годов только около 10 — 20% медицинских вмешательств (лекарственная терапия, хирургические операции, рентгенодиагностика, анализы крови и т.д.) основывалось на надежных научных сведениях11,12. В дальнейшем эти цифры оспаривались, поскольку они были получены в отношении всех диагностических и лечебных вмешательств, даже малоизвестных и редко используемых. Более поздние оценки с использованием этого метода показали, что 21% всех медицинских технологий имеет научные обоснования13. Обзоры вмешательств у групп больных, отражающие реально используемые вмешательства (а не все медицинские вмешательства или технологии, имеющиеся на рынке), предполагают, что 60—90% клинических решений основаны на доказательной медицине14-18. Однако я уже писала о том, что эти оценки имеют методологические ограничения19. Помимо всего прочего, они проводились в специализированных отделениях, оценивалась практика признанных экспертов доказательной медицины. Поэтому эти результаты вряд ли являются показательными (см. раздел 4.2). Рассмотрим основные подходы, используемые врачами для принятия решений. Все эти подходы — примеры того, чем не является доказательная медицина. 16
Принятие решений, основанное на коротком рассказе (анекдотичная медицина) Когда я была студенткой-медиком, я иногда сопровождала во время ежедневного обхода известного профессора. Увидав больного, он интересовался его симптомами, затем поворачивался к сопровождавшей его группе врачей и рассказывал историю о подобном больном, которого он лечил 20 или 30 лет назад. «Да, я помню, мы назначили ей то и то, и после этого она поправилась». К новым препаратам и технологиям он относился скептически (часто это было справедливо), а его клиническая проницательность равнялась нулю. Ему потребовалось 40 лет для накопления знаний, а самая большая медицинская книга — собрание случаев за пределами его личного опыта — была для него навсегда закрыта. Короткие рассказы играют важную роль в профессиональном обучении20. Однако опасности принятия решений на их основе хорошо видны при рассмотрении соотношения риск—польза лекарственных препаратов. Во время первой беременности у меня возникла тяжелая рвота и мне назначили противорвотный препарат прохлорперазин. В течение нескольких минут после приема препарата у меня возникли неконтролируемые и очень тяжелые судороги. Через 2 дня я полностью избавилась от этой идиосинкразии, но с тех пор это лекарство я никому не назначаю, хотя частота неврологических реакций на прохлорперазин составляет всего 1 случай на несколько тысяч. Наоборот, у врача может возникнуть соблазн игнорировать возможность редкого, но потенциально серьезного побочного эффекта от применения знакомого препарата, например тромбоза при применении контрацептивных препаратов, если врач никогда не встречался с такими эффектами у себя или своих больных. Конечно мы, будучи практикующими врачами, не можем отвергать собственный клинический опыт. Но наши решения должны основываться на коллективном опыте тысяч врачей, лечивших миллионы больных, а не только на том, что увидели и почувствовали мы сами. В главе 5 (« Статистика для неспециалиста») описаны конкретные ситуации, например обосновано число больных, которых необходимо лечить, для определения вероятности пользы или вреда от применения лекарственного препарата (или другого вмешательства). Принятие решений путем вырезания статей На протяжении первых 10 лет после получения медицинского диплома я собирала в папку статьи, которые вырезала из медицинских периодичес- 17
ких изданий. Если статья говорила о чем-то новом, я сознательно изменяла свою клиническую практику в соответствии с этими сведениями. «Все дети с подозрением на инфекцию мочевых путей должны направляться на визуализирующее исследование почек для исключения врожденных аномалий», — писалось в одной статье. Я начала направлять всех лиц моложе 16 лет с симптомами заболевания мочевых путей на специальные исследования. Эта рекомендация была новой, поэтому она должна была заменить традиционный подход, когда на исследования направляли только детей младше 10 лет с двумя установленными эпизодами инфекции. Такой подход к принятию клинических решений по-прежнему очень распространен. Многие врачи обосновывают свой подход к той или иной клинической проблеме, цитируя раздел «Результаты» всего одного опубликованного исследования, ничего не зная о методах получения этих результатов. Было ли испытание рандомизированным и контролируемым (см. раздел 3.3)? Сколько пациентов было включено, какого возраста, пола и с какой тяжестью заболевания (см. раздел 4.2)? Сколько пациентов было исключено из исследования и по каким причинам (см. раздел 4.6)? По каким критериям участников исследования считали здоровыми? Если результаты исследования противоречили данным, полученным в других работах, какие попытки предпринимались для их проверки (т.е. подтверждения) и воспроизведения (т.е. повторения) (см. раздел 7.3)? Были ли статистические тесты, якобы подтвердившие точку зрения авторов, выбраны и выполнены правильно (см. главу 5)? Врачи (медсестры, акушерки, управленцы в области здравоохранения, психологи, студенты-медики и активисты со стороны потребителей) сначала должны задать эти вопросы (еще больше вопросов приведено в Приложении 1) и только потом ссылаться на результаты медицинских исследований. Принятие решений, основанное на мнении эксперта (медицина, основанная на знаменитостях* ). Принятие решений «путем вырезания статей» означает использование «готовых к употреблению» обзоров, передовиц, консенсусных отчетов и рекомендаций. Бесплатные медицинские журналы и другие «информационные материалы», прямо или косвенно спонсируемые фармацевтическими компаниями, изобилуют рекомендациями и наглядными * В оригинале используется игра слов: eminence-based medicine (медицина, основанная на знаменитостях) созвучно evidence-based medicine (медицина, основанная на доказательствах). 18
схемами ведения больных. Однако, кто может поручиться, что совет, данный в наборе рекомендаций, эффектной передовой статье или в обильно аннотированном обзоре, является правильным? Профессор Цинтия Малроу (Cynthia Mulrow), один из основателей науки систематических обзоров (см. главу 8), показала, что эксперт в определенной клинической области на самом деле с меньшей вероятностью представит объективный обзор всех имеющихся сведений, чем неэксперт, непредубежденно относящийся к сведениям литературы21. В крайней ситуации «обзор эксперта» может состоять просто из плохих привычек, накопленных им в течение жизни, и вырезанных статей в личной папке стареющего врача. В главе 8 этой книги вы найдете список вопросов, определяющих, заслуживает ли обзор права называться «систематическим», а в главе 9 обсуждаются ограничения «готовых к употреблению» клинических рекомендаций. Принятие решений, основанное на минимизации затрат Общественность обычно ужасается, когда узнает, что пациенту было отказано в лечении по причинам его стоимости. Журналисты могут «пригвоздить к позорному столбу» управленцев, политиков и особенно врачей, если ребенок с опухолью мозга в США не направляется в специализированную больницу или если больной пожилой женщине отказывают в длительном пребывании в палате неотложной терапии. В реальности медицинская помощь оказывается в рамках ограниченного бюджета, и все чаще в принятии клинических решений приходится учитывать затраты. Как утвервдается в главе 10, клинические решения, принимаемые только на основании затрат («минимизация затрат» — выбор наиболее дешевого варианта безотносительно его эффективности), обычно бессмысленны и жестоки. Мы в праве активно возражать против такого подхода. В то же время применение дорогостоящих вмешательств нельзя оправдывать только тем, что они новые, теоретически должны быть эффективными или что им нет альтернатив. Они должны обосновываться тем, что могут спасти жизнь или существенно повысить ее качество. Но как можно сравнивать пользу замещения бедренной кости у женщины 75 лет с пользой применения препаратов, снижающих уровень холестерина, у мужчины средних лет или с пользой исследований по поводу бесплодия у молодой пары. Очевидного набора этических принципов и аналитических инструментов для согласования ограниченных ресурсов с неограниченными потребностями не существует. Как вы увидите в главе 10, 19
постоянно критикуемый показатель лет жизни с поправкой на качество (QALY) и подобные им единицы полезности являются всего лишь попытками придать некоторую объективность нелогичному, но неизбежному сравнению яблок с апельсинами на поле человеческого страдания. Есть другая причина, по которой термин «доказательная медицина» считают неприятным. В этой главе утверждалось, что доказательная медицина имеет отношение к учету происходящих изменений, а не к знанию всех ответов до того, как начать лечение. Другими словами, она не о том, что вы читали раньше, а о том, как вы определяете и удовлетворяете свои потребности в обучении и будете применять свои знания в новых клинических ситуациях. Врачи, обученные на старом школьном постулате «никогда не допускать незнания», с трудом поймут, что даже опытный врач-консультант встречается с научной неопределенностью в среднем 3 раза на каждых двух пациентов22 (менее образованный врач, несомненно, еще чаще). Основанный на доказательствах алгоритм работы у постели больного может перевернуть традиционную медицинскую иерархию с ног на голову: медсестра или младший врач могут представить научно обоснованные сведения, ставящие под сомнение то, что говорит многоопытный консультант. Для некоторых опытных врачей овладение навыками критической оценки — наименьшая трудность в адаптации к новому стилю преподавания, основанному на доказательной медицине! Если вам интересны философия и социология доказательной медицины, обратитесь к источникам, перечисленным в конце этой главы23,24. 1.3. Перед тем как начать, сформулируйте проблему Когда я прошу своих студентов написать реферат на тему «Высокое артериальное давление», они часто делают длинные, академичные и в целом правильные сообщения о том, что такое высокое АД, что его вызывает и каковы возможные варианты лечения. Когда они сдают свои рефераты, большинство из них знает о высоком АД гораздо больше меня. Они, конечно, знают, что высокое АД является частой причиной инсульта и что выявление и снижение высокого АД у пациентов позволяет снизить заболеваемость инсультом почти в 2 раза. Большинство студентов понимают, что инсульт — крайне тяжелое состояние — в целом случается редко, а таблетки, назначаемые по поводу повышенного АД, вызывают побочные эффекты: утомляемость, головокружение, импотенцию и вероятность «быть застигнутым врасплох», когда человек находится далеко от туалета. 20
Однако, когда я задаю своим студентам практический вопрос: «У г-жи Джонс начались головокружения от таблеток и она хочет прекратить их принимать, что вы посоветуете ей сделать?», они не могут ответить. Они понимают всю затруднительность положения, в котором оказалась г-жа Джонс, но не могут извлечь из своего подробно написанного текста сведений, которые ей нужно знать. Несколько лет назад в редакторской статье Ричард Смит задал такой вопрос (повторяя слова Т.С. Элиота): «Где мудрость, которую мы потеряли в знании, и где знание, которое мы потеряли в информации?»25. Опытные врачи (и многие медсестры) полагают, что они могут ответить на вопрос г-жи Джонс исходя из собственного опыта. Как я уже утверждала выше, немногие из них будут правы7. Даже если они будут правы в этот раз, им все равно нужна система обобщения информации о больном (набор симптомов, физикальных признаков, результатов анализов, анамнез больного и подобных больных), системе ценностей больного и о других вещах (запомнившаяся наполовину статья, мнение старшего и более мудрого коллеги, абзац, случайно обнаруженный при просмотре учебника). Все это надо будет обобщить в кратком заключении: в чем состоит проблема и какая специфическая дополнительная информация необходима дая ее решения. Д. Саккет с коллегами помогли нам разделить хороший клинический вопрос на части26. • Сначала определите точно, о ком этот вопрос (т.е. спросите себя, как бы я описал группу пациентов, подобных моему). • Затем определите, какое вмешательство вы рассматриваете для назначения этому пациенту (например, лекарственная терапия) и, если необходимо, с каким вмешательством вы бы хотели его сравнить (например, с плацебо или стандартной современной терапией). • Наконец, определите желательный (или нежелательный) исход (например, снижение смертности, повышение качества жизни, общее уменьшение затрат и т.д.). Второй этап — не обязательно лекарственное лечение, хирургическая операция или другое назначаемое пациенту вмешательство. Вмешательством может быть, например, действие предполагаемого канцерогена (фактор, который может вызвать злокачественное заболевание) или установление определенной суррогатной конечной точки для оценки анализа крови. (Суррогатная конечная точка, как объясняется в разделе 6.3, предсказывает, или считается, что предсказывает, последующее развитие 21
или прогрессирование заболевания. В реальности очень мало тестов, которые надежно служат «хрустальными шариками» для предсказания будущего пациента. Заявление «Врач посмотрел на результаты исследований и сказал, что мне осталось жить 6 месяцев» обычно свидетельствует либо о плохой памяти, либо о безответственности врача!). В обоих этих случаях «исходом» будет развитие рака (или какого-то другого заболевания) спустя несколько лет. Все же в большинстве случаев вмешательство — это специфическое вмешательство, назначаемое врачом. Таким образом, в случае с г-жой Джонс мы можем задать такой вопрос: «У 68-летней женщины белой расы с эссенциальной гипертензией (повышенное АД) без сопутствующих заболеваний и серьезных заболеваний в прошлом перевешивает ли польза непрерывного лечения гидро- хлортиазидом (главным образом, снижение риска инсульта) связанные с этим лечением неудобства». Формулируя специфический вопрос, мы уже установили, что у г-жи Джонс никогда не было сердечного приступа, инсульта или ранних прогностических признаков, таких, как преходящий паралич или потеря зрения. При наличии этих явлений риск инсульта гораздо выше и соотношение риск-польза будет другим. Для ответа на вопрос мы должны определить не только риск инсульта при нелеченой гипертензии, но и вероятное снижение этого риска, которого мы можем ожидать в результате лекарственной терапии. Фактически это другая формулировка более общего вопроса (перевешивает ли польза лечения связанный с лечением риск), который мы должны были задать перед тем, как в первый раз назначить г-же Джонс гидрохлортиа- зид. Все врачи должны задавать такой вопрос каждый раз, когда они выписывают больному рецепт. Следует помнить, что для г-жи Джонс альтернативой приему препарата не обязательно будет отказ от лекарств. Другие лекарства могут быть столь же эффективными, но при меньших побочных эффектах (в главе 6 утверждается, что слишком много клинических испытаний новых лекарственных препаратов сравнивают препарат с плацебо, а не с лучшим альтернативным препаратом). Существуют и немедикаментозные методы лечения — физические упражнения, ограничение потребления поваренной соли, гомеопатия и акупунктура. Не все эти подходы помогут г-же Джонс или будут приемлемы для нее, но следует искать научно обоснованные сведения, могут ли они ей помочь. Возможно, на некоторые из этих вопросов мы найдем ответы в медицинской литературе. В главе 2 описано, как проводить поиск нужных статей по сформулированной проблеме. Последнее замечание: чтобы опре- 22
делить личные приоритеты пациентки (как она оценивает снижение на 10% пятилетнего риска развития инсульта по сравнению с невозможностью самостоятельно пойти сегодня в магазин за покупками), вам нужно обратиться к самой г-же Джонс — специалист по-высокому АД или поиску информации в медицинских базах данных вам не поможет! На заре доказательной медицины многие врачи испытывали энтузиазм по поводу использования «дерева решений» для инкорпорирования взглядов пациентов на выбор лечения27'28. На практике это часто невозможно, поскольку (это мое личное мнение) заболевания — сложные проблемы, которые нельзя упростить до «деревьев решений» на основе простой логики типа да/нет29. Возможно, самой сильной критикой доказательной медицины стало отвержение собственных взглядов больного на свою болезнь в пользу среднего эффекта в популяции или показателя QALY (см. главу 10), подсчитанных специалистом по медицинской статистике29"31. В последние несколько лет доказательная медицина быстро продвинулась в плане учета взглядов пациентов в принятии клинических решений19,32, введения в доказательную политику здравоохранения33, дизайна и проведения клинических испытаний34-35. Я постаралась включить взгляды больного в пятистадийную модель научно обоснованной (доказательной) практики Д. Саккета1. Получившиеся 8 стадий, которые я назвала контекст-чувствительным проверочным листом для научно обоснованной клинической практики, приведены в Приложении 1. Упражнение 1 1. Вернитесь к 4-му абзацу этой главы, в котором приведены примеры клинических вопросов. Определите, правильно ли каждый из этих вопросов сформулирован в терминах: • пациент или проблема; • вмешательство, прогностический маркер, действие какого-либо фактора; • вмешательство сравнения (если нужно); • клинический исход. 2. Рассмотрите следующие примеры. а) Пятилетний ребенок получает высокие дозы местных стероидов по поводу тяжелой экземы начиная с возраста 20 мес. Мать считает, что стероиды задерживают рост ребенка, и хочет перейти на гомеопатическое лечение. Какая информация необходима дерматологу, чтобы решить: (а) обоснованно ли мнение матери ребенка о топических стероидах и (б) поможет ли этому ребенку гомеопатическое лечение? 23
б) Беременная женщина (срок 9 нед) вызвала врача общей практики по поводу кровотечения и болей в животе. До этого на УЗИ было подтверждено, что беременность не эктопическая. Врач считает, что возможен выкидыш, и рекомендует пациентке лечь в больницу на обследование; возможно, придется прибегнуть к выскабливанию матки. Женщина отказывается. Какая информация нужна им обоим для того, чтобы установить, необходимо ли направление в больницу по медицинским показаниям? в) Большинство детей в возрасте 6 нед, 8, 18 мес и 3 лет в Великобритании обследуются на соответствие их развития возрасту. Врач выслушивает сердце, пальпирует живот, проверяет наличие яичек в мошонке, медсестра показывает ребенку погремушки, а также подсчитывает, еколько «кирпичей» ребенок может использовать для строительства башни. Оставив в стороне социальные аспекты «клиник здоровых детей», определите, какая информация нужна вам для того, чтобы решить, является ли эта услуга хорошим использованием ресурсов здравоохранения. Литература 1. Sackett D.L., Rosenberg WM..C, Gray JAM. et al. evidence based medicine: what it is and what it isn't // BMJ. - 1996. - Vol. 312. - R 71-72. 2. Donald A., Greenhaigh T. A Hands-on Guide to Evidence Based Health Care: Practice and Implementation. — Oxford: Blackwell Science, 2000. 3. Sackett D.L., Haynes B. On the need for evidence based medicine // Evidence Based Medicine. - 1995. - Vol. 1. - P. 4-5. 4. James N.T. Scientific method and raw data should be considered (letter)// BMJ. - 1996. - Vol. 313. - P. 169-170. 5. StradlingJ.R., Davies RJ.O. The unacceptable face of evidence based medicine //J. Eval. Clin. Pract. - 1997. - Vol. 3. - P. 99-103. 6. Black D. The limitations to evidence //J. R. Coll. Physicians Lond. — 1998.-Vol. 32.-P. 23-26. 7. Institute of Medicine. Guidelines for Clinical Practice: from Development to Use. - Washington: National Academy Press, 1992. 8. Brook R.H., Williams K.N., Avery S.B. Quality assurance today and tomorrow: forecast for the future //Ann. Intern. Med. - 1976. - Vol. 85. - P. 809-817. 9. Roper W.L., Winkenwerde W.t Hackbarth G.M, Krakauer M. Effectiveness in health care: an initiative to evaluate and improve medical practice // N. Engl. J. Med. - 1988. - Vol. 319. - P. 1197-1202. 24
10. Sackett D.L., Haynes R.B., Guyatt G.H.,Tugwell P. Clinical Epidemiology — a Basic Science for Clinical Medicine. — Lond.: Little, Brown, 1991. - R 305-333. 11. Office of Technology Assessment of the Congress of the United States. The Impact of Randomized Clinical Trials on Health Policy and Medical Practice. - Washington: US Government Printing Office, 1983. 12. Williamson J.W., Goldschmidt P.G., Jillson LA. Medical Practice Information Demonstration Project: Final Report. - Baltimore: Policy Research, 1979. 13. Dubinsky M., Ferguson J.H. Analysis of the National Institutes of Health Medicare Coverage Assessment // Int. J. Technol. Assess. Health Care. - 1990. - Vol. 6. - P. 480-488. 14. Ellis J., Mulligan L, Rowe J., Sackett D.L. Inpatient general medicine is evidence based. A-team, Nuffield Department of Clinical Medicine // Lancet. - 1995. - Vol. 346. - P. 407-410. 15. Gill P., Dowell A.C., Neal R.D. et al. Evidence based general practice: a retrospective study of interventions in one training practice // BMJ. - 1996. - Vol. 312. - P. 819-821. 16. Geddes J., Game D., Jenkins N. et al. In-patient psychiatric treatment is evidence based // Qual. Health Care. — 1996. — Vol. 4. — P. 215-217. 17. Myles P.S., Bain D.L., Johnson F., McMahon R. Is anaesthesia evidence based? A survey of anaesthetic practice // Br. J. Anaesth. — 1999. — Vol.82. -P. 591-595. 18. Howes N., Chagia L., Thorpe M.f McCulloch P. Surgical practice is evidence based // Br. J. Surg. - 1997. - Vol. 84. - P. 1220-1223. 19. Greenhaigh T. Is my practice evidence based? (editorial) / BMJ. — 1996. - Vol. 313. - P. 957-958. 20. Macnaughton J. Anecdote in clinical practice // Narrative Based Medicine: Dialogue and Discourse in Clinical Practice / Eds T. Greenhaigh, B. Hurwitz. - Lond.: BMJ Publications, 1999. - P. 202-211. 21. Mulrow C. Rationale for systematic reviews // BMJ. — 1994. — Vol. 309. - P. 597-599. 22. CovellD.G., Uman G.C., ManningP.R. Information needs in office Practice: are they being met? //Ann. Intern. Med. - 1985. - Vol. 103. - P. 596-599. 23. Tanenbaum S.J. Evidence and expertise: the challenge of the outcomes movement to medical professionalism //Acad. Med. — 1999. — Vol. 74. - P. 757-63. 25
24. ТопеШ M.R. The philosophical limits of evidence based medicine // Ibid. - 1998. - Vol. 73. - P. 1234-1240. 25. Smith R. Where is the wisdom ... ? BMJ. - 1991. - Vol. 303. - P. 798-799. 26. Sackett D.L., Richardson W.S., Rosenberg WM.C, Haynes R.B. Evidence Bbased Medicine: How to Practice and Teach EBM. - 2nd ed. — Lond.: Churchill Livingstone, 2000. 27. Kassirer J.P. Incorporating patients4 preferences into medical decisions // N. Engl. J. Med. - 1994. - Vol. 330. - P. 1895-1896. 28. Dowie J. «Evidence-based», «cost-effective», and «preference-driven» medicine//J. Health Serv. Res. Policy. - 1996. - Vol. 1. - P. 104-113. 29. Greenhalgh T. Narrative based medicine in an evidence based world // BMJ. - 1999. - Vol. 318. - P. 323-325. 30. Grimley Evans J. Evidence-based and evidence-based medicine // Age Ageing. - 1995. - Vol. 24. - P. 461-463. 31. FeinsteinA.R., HorwitzR.I. Problems in the «evidence» of «evidence based medicine» //Am. J. Med. - 1997. - Vol. 103. - P. 529-535. 32. Greenhalgh Т., Young G. Applying the evidence with patients // Evidence Based Health Care — a guide for general practice / Eds A. Haines, С Silagy. - Lond.: BMJ Publications, 1998. 33. Domenighetti G., GrilliR., LiberatiA. Promoting consumers' demand for evidence based medicine // Int. J. Technol. Assess. Health Care. — 1998.-Vol. 14.-P. 97-105. 34. Fulford K.W.M., Ersser S., Hope T. Essential practice in patient- centered care. — Oxford: Blackwell Science, 1996. 35. Entwistle V.A., Sheldon T.A., Sowden A., Watt I.S. Evidence- informed patient choice. Practical issues of involving patients in decisions about health care technologies // Int. J. Technol. Assess. Health Care. — 1998.-Vol. 14.-P. 212-225. 26
Глава 2 Поиск литературы 2.1. Чтение медицинских статей Блуждание по джунглям под названием «медицинская литература» — нелегкая задача. Поэтому неудивительно, что эта глава в книге самая длинная. Вы можете соблюдать все правила чтения статей, но, если вы читаете не ту статью, лучше было бы заняться чем-то другим. На полках наших библиотек уже около 15 млн медицинских статей. Каждый месяц в мире выходит около 5000 медицинских журналов, а число журналов, публикующих только рефераты (аннотации) статей, возможно, превышает 250. Только 10—15% материалов, выходящих сегодня из печати, в дальнейшем будут представлять научную ценность. В ряде исследований показано, что большинство врачей не знают, как получить доступ к интересующей их медицинской литературе. Доктор Дэвид Джуэлл (David Jewell) в своей замечательной книге «Критическое чтение для врачей первичного звена медицинской помощи»3 напоминает о том, что существует 3 уровня чтения: 1. Пролистывание, при котором бегло просматривают страницы в поиске интересующего материала. 2. Чтение для получения информации, при котором в литературе ищут ответ на специфический вопрос, обычно связанный с актуальной для читателя проблемой. 3. Чтение-исследование, при котором проводят целенаправленный поиск для формирования всестороннего взгляда на знание, незнание и неопределенность в соответствующей области. На практике большинство читателей получают большую часть информации (а также, будем откровенны, массу удовольствия) путем пролисты- вания. Применение критической оценки, которая описывается в этой книге, означает отказ от удовольствия бессистемного чтения. Тем не менее Д. Джуэлл советует нам пройти между Сциллой доверчивости (тезис «ве- 27
рить всему») и Харибдой усердного интеллектуализма формальной критической оценки. 2.2. База данных Medline При беглом просмотре (чтение ради удовольствия от самого чтения) вы можете читать то, что вам нравится, и так, как вам нравится. Если вы читаете для получения информации (фокусированный поиск информации) или для научного исследования (систематический обзор), вы впустую потратите время и упустите из виду много ценных статей, если будете искать информацию наугад. Многие (но не все — см. раздел 2.11) медицинские статьи проиндексированы в огромной базе данных Medline, доступной в развитых странах практически во всех медицинских и научных библиотеках. Если вы ищете систематические рефераты проверенного качества по всем имеющимся достоверным сведениям по определенной теме, вероятно, стоит начать с Кокрановской базы данных (см. раздел 2.11), а не с Medline. В ней применяются очень похожие принципы поиска. Однако новичку обычно легче освоить именно базу данных Medline. База данных Medline создана и поддерживается Национальной медицинской библиотекой США. В ней проиндексировано свыше 4000 журналов, публикуемых более чем в 70 странах мира. В Medline доступны 3 версии информации. • Печатная (Index Medicus, ручной указатель, обновляемый каждый год, на основе которого создают электронную версию). • Онлайн-версия (вся база данных, начиная с 1966 г., доступная через Интернет). • CD-ROM (вся база данных, состоит из 10—18 дисков в зависимости от производителя). База данных Medline одна и та же вне зависимости от того, какая компания ее распространяет. Различия заключаются в командах, которые нужно вводить для поиска информации. Эти команды зависят от программного обеспечения, предоставляющего доступ к Medline. Коммерческие поставщики онлайн- и/или CD-версий Medline — Ovid Technologies (OVID), Silver Platter Information Ltd (WinSPIRS), Aries Systems Inc (Knowledge Finder) и PubMed. Научиться пользоваться Medline лучше всего у библиотекаря, специалиста по информатике или просто опытного пользователя. Человек, не чуждый технике, приобрести базовые навыки сможет менее чем за час. Статьи в Medline можно найти двумя путями. 28
1. По любому слову, приведенному в базе, включая слова в названии статьи, аннотации, именах авторов, наименовании учреждения, в котором было проведено исследование (аннотация — краткое содержание статьи; его можно найти в Medline и в начале самой печатной статьи). 2. По словарю медицинских терминов, известному под названием «медицинские предметные рубрики» (MeSH, от англ. medical subject heading). Чтобы проиллюстрировать принципы работы в Medline, я проработала некоторые наиболее распространенные задачи поиска. Ниже приведены сценарии поиска с использованием программного обеспечения OVID4 (я пользуюсь им наиболее часто, эта версия доступна при модемном подключении в библиотеке Британской медицинской ассоциации, к которой все члены этой организации имеют бесплатный доступ). Я также включила комментарии по WinSPIRS5 (которую используют многие университеты) и PubMed (эта оболочка доступна бесплатно через Интернет, она имеет встроенные поисковые фильтры, которые можно вставлять нажатием соответствующих кнопок; кроме того, она позволяет проводить поиск в PreMedline, представляющей базу данных по статьям, которые находятся в печати или были опубликованы только что6). Все эти системы (OVID, WinSPIRS, PubMed) предполагают применение булевской логики, т.е. определенные поисковые термины («гипертензия», «терапия» и т.д.) соединяются между собой операторами («и», «или» и «не», показано далее). Knowledge Finder — другая программа, предоставляющая доступ к Medline; она использует «нечеткую логику», т.е. может отвечать на завершенные вопросы, например, «каково наилучшее лечение гипертензии». Считается, что Knowledge Finder лучше подходит пользователю-новичку или имеющему небольшой опыт. Я считаю систему, реализуемую в Knowledge Finder, быстрой и эффективной и рекомендую приобрести эту программу, если поиск проводится множеством необученных пользователей. Практические упражнения, приведенные в этой главе, применимы ко всем типам программ доступа к Medline. 2.3. Задача 1: Вы пытаетесь найти определенную статью, которая, как вы знаете, существует Решение: ищите в базе данных по определенному полю (название, авторы, журнал, название организации и т.д.) или по сло- вам в тексте. 29
Это не должно занять много времени. Вам не нужно проводить всесторонний поиск по теме. Обратитесь к той части базы данных, которая охватывает приблизительный год публикации статьи (обычно последние 5 лет). Этот выбор — одна из первых операций, которую система попросит вас выполнить в основном окне поиска Medline; если вы уже находитесь в главном меню Medline, выберите «базу данных» (database) (Alt-B). Если вы знаете название статьи (или приблизительное название) и, возможно, журнал, в котором она была опубликована, можно использовать ключи поиска по названию или журналу или (что гораздо быстрее) поля .ti (название) и .jn (журнал). Во врезке 2.1 приведены некоторые полезные суффиксы в OVID, большая их часть говорит сама за себя. Обратите внимание на суффикс «.ui», который обозначает уникальный номер, который вы можете использовать для поиска определенной записи в Medline. Если вы нашли статью, к которой хотите обратиться в дальнейшем, будет быстрее записать ее уникальный идентификационный номер, а не фамилию автора, название статьи, название журнала и т.д. Врезка 2.1 Полезные поисковые суффиксы полей Суффикс .ab .аи .jn .me .ti .tw .ui •yr Значение слово в аннотации автор журнал слово (где бы оно ни было) как термин Me SH слово в названии слово в названии или аннотации уникальный идентификационный номер год публикации (OVID) Пример epilepsy.ab smith-r.au lancet .jn ulcer.me epilepsy.ti epilepsy.tw 91574637.ui 1887.yr Для примера использования суффиксов полей давайте представим, что мы ищем статью под названием что-то вроде «A survey of cervical cancer screening in people with learning disability» («Обзор скрининга на рак шейки матки среди людей с нарушениями обучения»). Вы помните, 30
что она была опубликована 2 года назад в Британском медицинском журнале (BMJ). Убедитесь в том, что вы не отметили галочкой опцию «Map term to subject heading» («соотнести термин с предметными рубриками»), и затем наберите на компьютере: 1 cervical cancer.ti Это даст вам примерно 750 статей (набор 1). Теперь наберите: 2 survey.ti Вы получите примерно 4500 статей (набор 2). Теперь наберите: 3 learning disability.ti Это даст вам примерно 100 статей (набор 3). Теперь наберите: 4 BMJ.jn Это даст вам несколько тысяч статей (набор 4), т.е. все статьи из BMJ, имеющиеся в этой части базы данных Medline для выбранных вами лет. Теперь объедините результаты поиска, набрав: 5 1 and 2 and 3 and 4 Вы получите статьи, в названии которых есть термины «cervical cancer», «survey», «learning disability», опубликованные в BMJ. Для нахождения одной статьи понадобилось 5 этапов. Обратите внимание, что в OVID вы сможете объединить результаты поиска, используя кнопку «combine» («комбинировать») в верхней части окна. Весь поиск можно выполнить в один этап при помощи следующего запроса (попробуйте его выполнить): 6 (cervical cancer AND и survey AND learning disability) .ti and BMJ.jn Этот этап демонстрирует использование булевского оператора «and» («и»), который позволяет получить статьи, общие для двух наборов. Использование оператора «or» («или») позволяет просто объединить два набора вместе. Обычно для обозначения названий журналов в OVID аббревиатуры применять не следует, но другие программные пакеты могут предполагать стандартные аббревиатуры. В OVID есть два важных исключения Из этого правила: Журнал Американской медицинской ассоциации [Journal of American Medical Association (JAMA)] и Британский медицинский журнал [British Medical Journal (BMJ)], в 1988 г. поменявший 31
свое официальное название на BMJ. Для поиска статей с 1988 г. вы должны использовать аббревиатуру BMJ. Статьи, вышедшие до 1987 г. включительно, следует искать по названиям British Medical Journal и British Medical Journal clinical research ed. Другой важный момент — поиск по слову в названии позволяет найти статью по точному слову; например, этот поиск упустил бы статью, в названии которой есть слово «нарушения» обучения, а не «нарушение». Для устранения таких трудностей нужно использовать символ корня слова (см. с. 20). Часто вы не знаете название статьи, но знаете фамилию ее автора. Иногда прочитанная статья или услышанная лекция оставляет настолько глубокое впечатление, что хочется увидеть опубликованные этим автором статьи. Удалите результаты предыдущего поиска путем выбора опции «edit» («редактировать») в строке меню в верхней части главного поискового окна, затем выберите «delete all» («удалить все»). Давайте попробуем найти публикации профессора сэра Майкла Мар- мота (Michael Marmot) за последние 5 лет. Структура поискового запроса следующая. Наберите: 1 marmot-m.au В результате вы получите все статьи из этой части базы данных, в которых Майкл Мармот являлся автором или соавтором, — примерно 35 статей. Однако, как и в случае со многими другими авторами, Michael — не единственный М. Marmot в медицинской литературе. Кроме того, у него есть еще один (средний) инициал, который он приводит не во всех публикациях. Если вы не знаете среднего инициала, для его выяснения нужно использовать символ корня слова. Наберите: 2 marmot-m$.au Эта даст около 60 статей, которые включают предыдущие 35, найденные по М. Marmot, плюс статьи М.А. Marmot, M.D. Marmot и еще 25 статей. Итак, вы нашли его - это M.G. Marmot. Обратите внимание, что в OVID знак доллара - это символ корня, обозначающий «любой символ или символы». В поисковой программе Silver Platter эквивалентным символом является звездочка (*).Символ корня можно использовать для поиска однокоренных слов в тексте; например, запрос electric$.tw (в OVID) позволит найти статьи со словами «electric», «electricity», «electrical» и т.д. в названии или аннотации статьи. Можно использовать следующий однострочный запрос: 3 (marmot-m or marmot-mg).au 32
Такой запрос даст около 60 статей, которые теперь нужно просмотреть вручную для того, чтобы исключить каких-либо М. Marmot, отличных от профессора сэра Майкла Мармота. Может оказаться полезным и поиск по полю организации. Это даст все статьи, написанные в определенной исследовательской организации. Например, чтобы найти все статьи, где Withington Hospital, Manchester значится в поле «организация» (основной адрес, где было проведено исследование, или адрес одного из соавторов), наберите: 4 (withington hospital and manchester).in Если вы не можете вспомнить название нужной статьи, но знаете некоторые точные ключевые фразы из аннотации, быстрее проводить поиск по словам текста, а не по терминам MeSH (они объясняются в следующем разделе). Необходимые суффиксы полей: .ti (название), .ab (аннотация), .tw (слово в тексте — в названии или в аннотации). Предположим, вы ищете редакционную статью одного из медицинских журналов (не можете вспомнить, какого) в 1999 г. о медицине, основанной на доказательствах. Удалите результаты предыдущих запросов, затем наберите: 1 evidence based medicine.tw and 1999.yr Это даст всего около 100 статей. Теперь можно просмотреть аннотации вручную. Можно также сузить поиск по типу публикации. Наберите: 2 limit 1 to editorial Поиск можно также провести при помощи следующего однострочного запроса: 3 evidence based medicine.tw and 1999.yr and editorial.pt где .tw означает слово в тексте (в названии или аннотации), .уг означает «год публикации», .pt означает «тип публикации» (можно также использовать кнопку «ограничить набор» в верхней части окна, а затем выбрать тип публикации «editorial»). Этот метод выявит только лишь статьи с точной фразой «evidence-based medicine» в тексте. Он не выявит статьи, например, включающие термин «evidence-based health care» вместо «evidence based medicine». Следовательно, необ- ходимо искать по терминам MeSH, как объясняется ниже, и/или охва- тить все возможные вариации слов в тексте (включая разные написания одного слова. 33
Упражнение 1 1. Попробуйте найти следующие статьи, используя как можно меньшее число команд. а) Систематический обзор, написанный Крейг (Craig) и соавторами, по сравнению измерения у детей температуры тела в подмышечной области и в прямой кишке; опубликован в известном англоязычном журнале примерно в 2000 г. (Не забывайте о том, что система OVID для поиска требует инициалы автора.) б) Статью команды проф. Марша (Marsh) из Оксфорда, посвященную эффектам фенобарбитала на частоту эпилептических припадков. (Обратите внимание на то, что вам не требуется полный адрес учреждения для поиска в этом поле.) в) Статью Салима Юсуфа (Salim Yusuf) и соавторов, описывающую частоту смертельных исходов от различных причин у участников в испытании НОРЕ (от англ. Heart Outcomes Prevention Evaluation, оценка профилактики сердечных исходов). Статья опубликована либо в журнале New England Journal of Medicine, либо в Журнале американской медицинской ассоциации (JAMA). Обратите внимание, что первый журнал в Medline индексирован под полным названием, а последний — в виде аббревиатуры JAMA. г) Две статьи, опубликованные в 1995 г. в Американском журнале медицинской генетики, по наследованию шизофрении у жителей Израиля. Можете ли Вы найти эти статьи, используя единственную команду с применением суффиксов полей? 2. Найдите серию статей, которые выходили в Журнале американской медицинской ассоциации (JAMA) с 1992 г. под названием «Руководства к использованию медицинской литературы» («User's Guides to the medical literature»). Когда найдете, скопируйте и сохраните их у себя. Значительная часть этой книги основана на этих публикациях. 3. Как много Вы можете найти статей, написанных проф. Дэвидом Сакетом (David Sackett), который, как и проф. Мармот (Marmot), не всегда указывает в публикациях свой средний инициал. 4. Выясните, сколько статей было опубликовано Савдрой nwia.6eK-ByA(Sandra Goldbeck-Wood) в британском медицинском журнале в 1999 г. Помните, что в OVID для ограничения поиска определенным годом следует использовать кнопку «limit set» («ограничить выбор») в верхней части окна и затем выбрать «publication year» («год издания»), либо же использовать суффикс года .уг(напр., 1994.уг).
2.4. Задача 2: Вам необходимо ответить на специфический клинический вопрос Решение: проведите специфический (фокусированный) поиск путем сочетания двух или более широких поисковых запросов. Недавно мать молодой девушки с нервной анорексией, у которой прекратились месячные, обратилась ко мне с просьбой назначить девушке таблетки, препятствующие истончению костей. Это была вполне понятная просьба, хотя возникали некоторые этические вопросы. Но есть ли доказательства того, что прием таблеток в этих обстоятельствах действительно предотвращает на отдаленных этапах разрушение костной ткани? Я решила изучить этот предмет при помощи Medline. Для ответа на этот вопрос вам необходимо провести широкий поиск по терминам «anorexia nervosa» (нервная анорексия), «osteoporosis» (остеопороз) и «oral contraceptives» (пероральные контрацептивы). Сперва удалите из окна программы все предыдущие запросы. Затем убедитесь, что вы отметили опцию «соотносить текст с предметными рубриками». Теперь наберите: 1 anorexia nervosa Вы не набрали суффикс поля (такой, как .tw), поэтому даже если вы забыли отметить галочкой опцию «соотносить текст с предметными рубриками», система OVID автоматически сделает это, т.е. попытается соотнести ваш запрос с одной из стандартных медицинских предметных рубрик [сокращенно MeSH (от англ. Medical Subjects headings)]. Подождите несколько секунд и вы увидите на экране несколько опций. Первая — «anorexia nervosa» как термин MeSH, и вам предлагаются два дополнительных варианта: «explode» (расширить) и «focus» (сузить). Не обращайте пока внимания на опцию «explode» (она объясняется далее) и изучите опцию «focus». Ищете ли вы статьи только о собственно нервной анорек- сии, или вам нужна любая статья, в которой упоминается этот термин? Предположим, мы не хотим ограничивать набор статей. Далее нам предлагается выбор подрубрик, не будем пока обращать на это внимания. Выберите опцию «Include all subheadings» (Включить все подрубрики). То же самое мы получим, используя такой поисковый запрос. 2 * anorexia nervosa/ гАе * означает, что термин является основным в статье и / означает тер- ин MeSH. В результате вы должны получить около 750 статей. Зй
Другая возможность — поиск по словам в тексте по термину «anorexia nervosa» (в названии или аннотации). Другими словами, когда вы просите систему соотнести термин, она также предложит вам провести поиск по словам в аннотации или названии статьи, т.е. найдет вам статьи, в которых слова «anorexia nervosa» есть в названии или аннотации, даже если статья не была индексирована под этой рубрикой MeSH. Вам также следует отметить эту опцию. После того как термин был соотнесен, вы увидите на экране следующую структуру запроса: 1 anorexia nervosa.mp (название, аннотация, слово в номере регистра или MeSH) Обратите внимание, что не все программы, предоставляющие доступ в Medline, автоматически соотносят ваш запрос с терминами MeSH. Например, в программном обеспечении от Silver Platter вам нужно после ввода вашего термина нажать на кнопку «suggest» (предположить). В этом случае система предложит вам либо «нарушения питания», либо «anorexia nervosa» и попросит вас выбрать наиболее близкий вариант. Выберите «anorexia nervosa» (клавиша пробел для выделения текста, затем нажмите клавишу «Enter»). Таким же образом, чтобы получить статьи по остеопорозу (который также является термином MeSH), используйте следующую команду: 2 osteoporosis/ Вы должны получить около 3000 статей. Обратите внимание — в OVID, если вы знаете, что искомое слово является также термином MeSH, можно сократить процесс соотнесения с MeSH путем набора косой черты (/) после слова. Это экономит время. Обратите также внимание, что в данном случае мы не используем звездочку, поскольку остеопороз может и не быть основной темой нужных нам статей. Теперь наберите термин «oral contraceptives» (без звездочки и без косой черты), чтобы увидеть, какой здесь будет термин MeSH. Термин MeSH — «contraceptives, oral» (если вы знаете об этом, вы могли бы использовать запрос contraceptives,oral/ но не делайте этого по причинам, которые я вам собираюсь объяснить). 3 oral contraceptives OVID соотносит ваш запрос с «contraceptives,oral» и спрашивает, хотите ли вы ограничить свой поиск (focus) (возможно нет, поэтому не отмечайте эту опцию) или расширить его (explode). Термины MeSH напоминают ветви дерева, например, «астма» подразделяется на «астму у 36
детей», «профессиональную астму» и т.д. Специалистам, индексирующим Medline, дают указание индексировать статьи, используя как можно более специфичный (узкий) термин MeSH. Если вы просто запрашиваете статьи по «астме», вы упустите все ответвления от этого термина, если не укажете команду расширить («explode») этот термин. (Обратите внимание, что расширить термин можно только вниз по дереву MeSH, но не вверх.) Если вы не выберете опцию расширить («explode») для запроса «contraceptives,oral», вы получите всего около 700 статей, а расширенный поиск даст около 5000! Быстрый способ расширить поиск, если вы знаете термин MeSH: 3 exp contraceptives, oral/ Сочетать эти три поисковых запроса можно, используя их номера (1 and 2 and 3) или набрав команду: 4 * anorexia nervosa/ and osteoporosis/ and exp contraceptives, oral/ Это даст возможность поиска свыше 6000 записей и в результате вы получите набор всего из 3 записей — 1 письмо9, 1 оригинальное исследование10 и 1 обзорную статью11. (Если вы не найдете их, внимательно проверьте структуру своего запроса, затем попробуйте провести такой же поиск в базе данных за предыдущие 5 лет, используя кнопку «база данных» в верхней части экрана.) Упражнение 2 Попробуйте получить набор менее 5 статей, относящихся к следующим вопросам или клиническим задачам. 1. Обусловлена ли высокая заболеваемость ишемической болезнью сердца в определенных этнических группах в Азии различиями в уровне инсулина? 2. Гипотеза, связывающая прием витамина С с излечением от простуды, вероятно, имеет отношение к его антиоксидантным свойствам. Имеются ли какие-либо (клинические или теоретические) доказательства в поддержку этой гипотезы? 3. Как следует лечить тиреотоксикоз у беременных? Убедитесь в том, что для каждого поискового термина вы находите соответствующий термин MeSH, используете звездочку для сужения поиска, косую линию для обозначения термина, известного вам как термин MeSH. (Если в настоящей базе данных найти ничего не удается, проведите поиск заново в предыдущих базах, выбрав кнопку «база данных».) 37
2.5. Задача 3: Вы хотите быстро получить общую информацию на определенную тему Решение: используйте подрубрики и/или опции ограничить набор статей («limit set»). Это одна из основных причин, по которой мы обращаемся в Medline. Мы не ищем какую-то определенную статью, ответа на специфический вопрос и не стремимся к всестороннему обзору имеющейся литературы. Мы просто хотим знать, например, каковы последние экспертные рекомендации по медикаментозному лечению астмы или было ли за последнее время написано что-то новое по поводу противомалярийных вакцин. Один из методов - проведение поиска с использованием терминов MeSH и затем, при обнаружении большого количества статей (и только в этом случае), использование подрубрик. Подрубрики являются тонкой надстройкой системы индексирования в Medline; они позволяют классифицировать статьи по определенному термину MeSH на этиологию, профилактику, лечение и т.д. Наиболее полезные подрубрики перечислены во врезке 2.2 (вам не нужно запоминать их, поскольку система OVID автоматически предлагает вам выбрать подрубрики, но вы можете ускорить поиск, если знаете, какие подрубрики вам нужны). Я стараюсь не использовать подрубрики, так как мои коллеги-библиотекари говорят, что примерно 50% статей в Medline классифицированы на подрубрики неправильно или неадекватно. Обратите внимание на то, что подрубрика /th во врезке 2.2 относится к немедикаментозному лечению заболеваний, a /dt означает лекарственную терапию. Подрубрика /tu используется исключительно для лекарственных препаратов и означает «терапевтическое применение чего-либо». Подрубрика /рх используется для непсихических заболеваний, как в этом примере — diabetes/px = психология диабета. В системе индексирования для калдой темы используются не все подрубрики. Для поиска подрубрик термина MeSH, например астмы, наберите: 1 sh asthma Эта команда позволит узнать, какие подрубрики используются в системе индексирования для данного термина MeSH. Она дает вам несколько опций, включая диагноз, экономику, этнологию и т.д. Вам следует выбрать /dt (лекарственная терапия). Вы также могли бы набрать такую команду: 2 *asthma/dt 38
Врезка 2.2 Полезные подрубрики (OVID) Суффикс /ае /со /ct /di /dt /ed /ер /hi /nu /og /PC /px /th /tu Значение побочные эффекты осложнения противопоказания (для лекарственного препарата) диагноз лекарственная терапия образование эпидемиология история сестринское дело организация/управление профилактика и контроль психология терапия терапевтическое использование (препарата) Пример thalodomide/ae measles/co propranolol/ct glioma/di depression/dt asthma/ed poliomyelitis/ep mastectomy/hi cerebral palsy/nu health service/og influenza/pc diabetes/px hypertension/th aspirin/tu где * означает основную тему статьи, / означает термин MeSH, a dt означает лекарственную терапию. Это даст вам около 2000 статей. Теперь вам нужно ограничить набор, поэтому начните с часто используемых опций для ограничения выбора (они перечислены под таблицей, опции, которые можно выбрать галочками) — «human» (исследования на человеке), «reviews» (обзоры) и т.д. Если вы хотите найти только полнотекстовые статьи, отметьте опцию «local holdings» (подписка). Это позволит ограничить набор журналов только теми, на которые подписана библиотека, предоставляющая вам доступ в Medline. Если вы выходите в Medline через модемное соединение с библиотекой Британской медицинской ассоциации (БМА), «подписка» означает журналы, имеющиеся в библиотеке БМА, а не в библиотеке, из которой вы выходите в Интернет! Обратите внимание, что опция «подписка» снижает количество 39
статей несистематическим образом; в журналах, на которые ваша библиотека не подписана, может быть много прекрасных и нужных вам статей. Если после выбора опций по ограничению набора статей у вас по- прежнему остается слишком много статей, нажмите кнопку «limit set» в верхней части экрана. Теперь вы можете выбрать дополнительные опции для сокращения количества статей до такого количества, которое вы реально сможете просмотреть. На самом деле просмотр около 50 статей на экране не занимает много времени. Лучше сделать это, чем ждать от программы, чтобы она выдала вам самое лучшее. Другими словами, не следует злоупотреблять командами по ограничению набора статей, перечисленными во врезке 2.3. Если вы уверены, что хотите получить обзорную статью, выберите соответствующую опцию («review»). Вы можете получить последний обзор, выбрав сначала «обзорные статьи» («review articles») и затем «последнее обновление» («latest update»). Тем не менее самый последний обзор может не быть лучшим обзором, написанным за последний год. Поэтому возможно лучше выбрать как «год публикации» — настоящий год, а затем просмотреть все имеющиеся обзоры. Помните, что только систематические обзоры включают детали и тщательный поиск всей имеющейся литературы (см. главу 8). Врезка 2.3. Полезные опции по «ограничению набора приведено пояснение опции на русском языке) AIM journals (основные медицинские журналы) Nursing journals (сестринские журналы) Dental journals (журналы по стоматологии) Cancer journals (журналы по онкологии) Review articles (обзорные статьи) Editorials (редакционные статьи Abstracts (аннотации) Local holdings (подписка) » статей (в скобках English language (английский язык) Male \ (мужчины) Human (люди) Publication year (год публикации) Опция «AIM journals» означает все журналы, имеющиеся в каталоге Abridged Index Medicus; этот каталог включает «основные» медицинские журналы. Если вы хотите ограничить поиск журналами для медсес- 40
тер, можете выбрать соответствующую опцию. Часто этот способ ограничения большого набора статей лучше, чем выбор статей, имеющихся по подписке. Если вам неинтересно читать статьи на иностранных языках (даже если имеются английские аннотации), вы можете выбрать соответствующую опцию. Нельзя забывать, что это несистематический (и склонный к смещениям) способ исключения статей из вашего набора12. Вместо использования кнопки «limit set» вы можете воспользоваться командами: 3 limit 2 to local holdings 4 limit 3 to human Упражнение 3 Попробуйте найти одну статью (путем просмотра большого набора), которая даст вам быстрый ответ на следующие вопросы: i. Показана ли заместительная гормонотерапия женщинам, в прошлом имевшим рак молочной железы? 2. Североамериканская медицинская литература часто упоминает об организациях поддержки здоровья (health maintenance organisations). Что это за организации? 3. Представьте, что вы медицинский журналист, которого попросили написать статью по скринингу рака предстательной железы. В качестве источников информации вам нужна пара кратких обзоров из наиболее распространенной медицинской литературы. 4. Ведет ли просмотр сцен насилия по телевидению к насилию у взрослых? 2,6. Задача 4: В результате поиска вы получаете много ненужных (неподходящих) статей Решение: уточните поисковый запрос в свете изучения промежуточных результатов. Часто в результате поиска можно получить десятки статей, несоответствующих вашему вопросу. В этом случае может помочь булевский оператор «not» («не»). Недавно я провела поиск статей по сУррогатным конечным точкам в исследованиях по клинической фармакологии. Я искала в Medline по терминам MeSH, но я также хотела 41
проводить поиск по словам в тексте для получения статей, пропущенных системой индексирования MeSH (см. раздел 2.7). К сожалению, в результате поиска я получила сотни ненужных мне статей — все они были посвящены суррогатному материнству. (Детально суррогатные точки обсуждаются в разделе 6.3, здесь вся суть в том, что к суррогатному материнству они не имеют никакого отношения!) Структура запроса для исключения ненужных статей следующая: 1 (surrogate not mother$).tw Использование оператора «not» — хороший пример уточнения запроса. Другой способ избавиться от ненужных статей — сузить поиск по словам в тексте до прилегающих друг к другу слов. Например, термин «home help» («помощь на дому») включает два распространенных слова, связанных специфическим контекстом. Соедините их следующим образом: 2 home adj help.tw где adj означает «adjacent» (прилегающие). Точно также можно формулировать другие запросы, например «community adj care» (внебольничная помощь), «Macmillan adj nurse». Более того, вы можете указать количество слов, разделяющих два связанных друг с другом слова, например такой запрос: 3 community adj2 care.tw позволяет находить статьи, включающие сочетания «community mental health care» (внебольничная психиатрическая помощь), а также «community child care» (внебольничная детская помощь) «community care» (внебольничная помощь). Упражнение 4 1. Найдите статьи на тему профессиональной астмы, вызванной сахаром. 2. Препарат хлорохин наиболее широко используется для лечения малярии. Определите, по каким еще показаниям он используется. [Подсказка: используйте подрубрику /tu? означающую «терапевтическое использование чего-либо», помните, что малярию часто обозначают по латинскому названию возбудителя (Plasmodium falciparum). Если вам нужно быстро найти информацию, следует ограничить поиск обзорными статьями]. 42
2.7. Задача 5: В результате поиска вы не получаете никаких статей или получаете, но не так много, как ожидали Решение: во-первых, не злоупотребляйте подрубриками или опциями «limit set» (ограничить набор). Во-вторых, проводите поиск как по словам в тексте, так и по терминам MeSH. В-третьих, регулярно пользуйтесь командой «explode» (расширить). Если в результате тщательно проведенного поиска вы вообще не получили статей, возможно это связано с отсутствием подходящих статей в базе данных. Однако наиболее вероятно, что вы их просто упустили. Много важных статей пропускаются не вследствие плохого поиска, а потому, что мы слишком сильно полагаемся на систему индексирования, в которой на самом деле много ошибок. О чрезмерном использовании подрубрик я уже говорила в разделе 2.5. Термины MeSH могут присваиваться неправильно или не присваиваться вообще. По этой причине важно проводить поиск не только по терминам MeSH, но также и по словам в тексте. В конце концов очень сложно написать статью по психологии диабета без упоминания таких слов, как диабет, диабетический, психология, психологический. Поиск по корням слов (diabet$.tw и psychol$.tw) дополнит поиск по термину MeSH «diabetes mellitus» и подрубрике /рх (психология). Удалите результаты предыдущего поиска. Рассмотрим такой пример. Если вы хотите ответить на вопрос, какова роль аспирина в профилактике и лечении инфаркта миокарда, вы можете набрать такую команду: 1 (myocardial infarction/pc or myocardial infarction/dt) and aspirin/tu В результате вы получите все статьи, имеющиеся в базе по данному запросу, охватывающему терапевтическое использование аспирина и профилактику или лечение инфаркта миокарда, — примерно 190 статей, но непосредственного ответа на вопрос вы не получите. Но можно и ограничить набор статей следующим образом: 1 myocardial infarction/ and aspirin/ 2 limit 1 to AIM journals 3 limit 2 to review articles 43
Такая стратегия даст вам около 25 обзорных статей, включая по меньшей мере одну очень полезную статью, которая не была найдена при первом поиске (по подрубрикам). Теперь давайте усовершенствуем эту поисковую стратегию. Удалите результаты предыдущего поиска и наберите: 1 (myocardial infarction and aspirin) .mp 2 limit 1 to AIM journals 3 limit 2 to review articles Суффикс .mp (см. с 36) автоматически даст вам поиск по словам в тексте названий и аннотаций. Вы должны получить таким образом около 50 статей, большая часть которых подходит под ваш запрос; некоторые из них были упущены, когда вы проводили поиск только по терминам MeSH. Другой важный способ предотвратить неполный поиск — использование мощной команды «explode» («расширить»). Эта команда рассмотрена ранее и вам следует ее регулярно использовать, за исключением специально оговоренных случаев. В качестве примера попробуйте провести следующий поиск. Мы хотим найти хороший обзор по гонококковому артриту (редкий тип острого артрита, вызываемого гонококками). Удалите результаты предыдущего поиска, затем наберите термин MeSH 1 * arthritis/ Это даст вам около 1300 статей, в которых артрит является главной темой. Теперь проведите поиск статей по артриту, в которых в названии или аннотации упоминается термин «гонококковый»: 2 gonococcal, tw 1 1 and 2 Это приводит к резкому сужению поиска до 1—2 статей, ни одна из которых не предлагает всесторонний обзор данного предмета. Сколько статей вы пропустили? Ответ: довольно много, поскольку термин MeSH «arthritis» (артрит) подразделяется на несколько ветвей, включая «arthritis, infectious» (артрит, инфекционный). Повторите поиск (без удаления результатов первого поиска), но в этот раз выберите команду «расширить» («explode») по отношению к термину «arthritis», а затем ограничьте набор статей обзорными статьями: 4 exp arthritis/ 44
5 2 and 4 6 limit 5 to review articles Теперь вы нашли около 5 статей, включая большой обзор13, который не был найден в результате поиска без команды «explode». Вы можете показать это, набрав: 7 6 not 3 Таким образом вы увидите, какие статьи выявлены при помощи поиска с командой «расширить» и не выявлены без нее. Если вы также предполагали поиск по словам в тексте, структура определения статей по проблемам у мужчин будет (male not female).tw и (men not women ).tw. 2.8. Задача 6: Вы не знаете, где начать поиск Решение: используйте опцию «перемещенного указателя». Рассмотрим термин «стресс». Поиск определенных типов стресса отнимет много времени, поиск слова «стресс» в тексте будет слишком несфокусированным. Нам нужно знать, где в указателе MeSH располагаются различные типы стресса. Когда мы это увидим, мы сможем выбрать тот тип стресса, который хотим изучить. Для этого мы пользуемся командой ptx («permuted index», смещенный указатель). Наберите: 1 ptx stress Вы увидите на экране много опций, включая посттравматические стрессовые растройства, стрессовый перелом, окислительный стресс, стрессовое недержание мочи и т.д. ptx — полезная команда, если изучаемый вами термин может быть найден в нескольких разных предметных областях. Если предметное слово является дискретным термином MeSH, используйте команду «tree» (дерево). Например: 2 tree epilepsy Покажет вам, где размещается термин «эпилепсия» в указателе MeSH (ответвление от «заболевания мозга»). Эпилепсия далее подразделяется на генерализованную эпилепсию (generalised epilepsy), частич- нУю эпилепсию (partial epilepsy), посттравматическую эпилепсию (Posttraumatic epilepsy) и т.д. 45
Упражнение 5 1. Найдите, когда слово «nursing» (сестринское дело) является частью термина MeSH. 2. При помощи команды «tree» раскройте термин MeSH «diabetes mellitus» (сахарный диабет). 2.9. Задача 7: Попытки ограничить число записей приводят к потере важных статей и не позволяют исключить статьи низкого методологического качества Решение: используйте ограничения по качеству (т.е. фильтр по качеству). Что делать, когда даже фокусированный поиск дает сотни статей, а при использовании подрубрик или функций ограничении набора записей ценные статьи утрачиваются? Во-первых, возможно, поиск не был таким фокусированным, как вы думали. Но, если вы не можете его улучшить, попробуйте использовать поиск по качеству, который позволяет ограничить набор записей терапевтическими вмешательствами, этиологией, диагностическими процедурами или эпидемиологией. Вы также можете ограничивать число записей типом публикации — рандомизированное контролируемое испытание, систематический обзор или мета- анализ. Фильтры по качеству, перечисленные в Приложениях 2 и 3, представляют сложные стратегии поиска, разработанные мировыми экспертами в области медицинской информации. Я впервые познакомилась с ними благодаря Кэролу Лефевру (Carol Lefebvre) из Британского центра кок- рановского сотрудничества. Он в свою очередь происхождение этих фильтров связывает с Анн МакКиббон (Anne McKibbon), которая многое написала на тему поиска применительно к научно обоснованной медицинской практике (доказательной медицине)14. Вы можете сохранить эти поисковые фильтры в компьютере и затем использовать их (в режиме «копировать», «вставить») в дополнение к предметному поиску. Разрабатываются другие максимально чувствительные стратегии поиска, которые позволят выделить когортные исследования, исследования случай—контроль и т.д. Скоро они будут доступны в Британском кокрановском центре (email general@cochrane.co.uk). 46
Упражнение 6 1. Найдите хорошее рандомизированное контролируемое испытание применения аспирина для лечения острого инфаркта миокарда.- 2. Найдите систематический обзор по риску желудочно-кишечного кровотечения, связанного с применением нестероидных противовоспалительных препаратов. 2.10. Задача 8: Несмотря на тщательный поиск, в базе данных Medline ничего не найдено Решение: проведите поиск в других медицинских и околомедицинских базах данных. При включении записей в базу данных Medline не исключаются ошибки как авторов и редакторов, выбирающих ключевые слова для индексирования, так и библиотекарей, объединяющих статьи по рубрикам и впечатывающих аннотации статей в систему. Согласно одной из оценок, 40% материалов, которые должны были оказаться в Medline, в действительности можно найти только повторным ручным просмотром журналов. Более того, ряд важных медицинских и околомедицинских журналов в Medline не представлен. В этой базе отсутствуют всесторонние ссылки на литературу из областей психологии, медицинской социологии и неклинической фармакологии. Если вы хотите расширить поиск, спросите у своего библиотекаря о наличии доступа к следующим базам данных. • AIDSLINE приводит литературу по СПИДу и ВИЧ-инфекции начиная с 1980 г. Эта база данных доступна через разных поставщиков. • Allied and Complementary Medicine (AMED, смежная и комплементарная медицина) покрывает вопросы комплементарной и альтернативной медицины, включая гомеопатию, хиропрактику, акупунктуру и т.д. Производится Британской библиотекой. Доступна через разных поставщиков, включая Silver Platter и OVID. Дополнительную информацию по AMED см. на http://www.ovid.com/site/ index.jsp • Bandolier публикует рефераты с возможностью поиска. Производится Андрю Мур (Andrew Moore) и его коллегами в Оксфорде, Великобритания. Включает ряд обзоров, подготовленных по по- 47
ручению руководства Отдела развития и исследований Национальной службы здравоохранения (NHS) Великобритании, http:// www.jr2.ox.ac.uk/bandolier/ • Cancer-CD. База данных от Silver Platter объединяет CANCERLIT и записи в EMBASE по злокачественным заболеваниям начиная с 1984 г. Версия на CD обновляется ежеквартально. • CINAHL. База данных по сестринскому делу и смежным дисциплинам, охватывает все аспекты сестринского дела, обучения здоровью, трудотерапии, социальных услуг в здравоохранении и других смежных предметов начиная с 1983 г. Версия на CD обновляется ежемесячно. • Cochrane Library (Кокрановская библиотека). Кокрановский регистр контролируемых испытаний, Кокрановская база данных систематических обзоров, база данных рефератов обзоров по эффективности (DARE), база данных по методологии обзоров обновляются ежеквартально; авторы систематических обзоров периодически обновляют подготовленные ими обзоры. Дополнительную информацию см. ниже. Рефераты находятся в бесплатном доступе на http://www.cochrane.org/cochrane/ revabstr/mainindex.htm • Current Contents Search индексирует номера журналов в момент их выхода или до выхода из печати. Полезна для поиска самых последних сведений по определенной тематике. Обновляется еженедельно. База данных поддерживается начиная с 1990 г. Доступна через OVID; дополнительную информацию см. на http:// www.isinet.com • Медицинская база данных английского национального совета. База данных журнальных статей, предназначенных, в первую очередь, медсестрам, акушеркам и пациентам. http://enb- search.ulcc.ac.uk/cgi-bin/hcdsearch • Embase. База данных Excerpta Medica, охватывающая, в первую очередь, лекарственные препараты и фармакологию, а также включающая другие биомедицинские дисциплины. Эта база данных более современна по сравнению с Medline и более полно охватывает исследования, проведенные в Европе. Версия на CD обновляется ежемесячно. Доступна через нескольких поставщиков программного обеспечения, включая OVID. • База данных NHS по экономической оценке. Открытая для публичного доступа база данных критически оцененных структури- 48
рованных рефератов клинических испытаний, включающих экономическую оценку, http://nhscrd.york.ac.uk • База данных NHS по комплексной оценке медицинских технологий. Открытая для публичного доступа база данных критически оцененных структурированных рефератов клинических испытаний, включающих оценку медицинских технологий, http:// nhscrd.york.ac.uk • National Guideline Clearinghouse (США). Обширная база данных клинических рекомендаций, основанных на доказательной медицине, и других документов, созданная Американским агентством управления здравоохранением и научных исследований совместно с Американской медицинской ассоциацией и Американской ассоциацией планирования здравоохранения, http://guidelines.gov/ index.asp • Национальный исследовательский регистр (Великобритания). Список проводимых в Великобритании клинических испытаний, составляемый Советом медицинских исследований и Национальным исследовательским регистром, http ://www. update - software.com/National/nrr-frame.html • Psyclit. Производится Американской ассоциацией по психологии. Компьютерная версия рефератов по психологии с возможностью поиска. Охватывает психологию, психиатрию и смежные дисциплины. Включены журналы с 1974 г. и книги с 1987 г. (только на английском языке). Эту базу данных совместно с Medline поставляют несколько компаний (см. список литературы). • Science Citation Index. Индексирует литературу, цитированную в статьях, а также имя автора, название, реферат и ссылки в самих статьях. Полезна для поиска работ, проведенных после публикации ключевой статьи, и для поиска адресов авторов. Доступна (за определенную плату) через Web of Science на http:// wos.mimas.ac.uk • SUMSearch. Новый метод поиска в Интернете научно обоснованной (доказательной) медицинской информации. Сканирует несколько наиболее важных баз данных, включая Medline, Кокрановские рефераты и DARE (см. выше). SUMSearch выбирает наиболее подходящий источник, форматирует поисковый запрос, видоизменяет запрос, если найдено слишком мало или слишком много ссылок, и выдает результат в виде одного документа, http:// SUMSearch.uthscsa.edu 49
• UNICORN. Основная база данных Королевского фонда, Лондон (Великобритания). Охватывает ряд журналов, посвященных здравоохранению, управлению здравоохранением, экономике здравоохранения и социальным наукам. База данных удовлетворяет, в первую очередь, запросы первичного звена медицинской помощи и охраны здоровья жителей Лондона. Доступна через библиотеку Королевского фонда. 2.11. Кокрановская библиотека Когда я работала над первым изданием этой книги, Кокрановская библиотека представляла собой небольшой исследовательский проект. Я прогнозировала, что к 2000 г. она заменит Medline в качестве основного медицинского источника информации при поиске статей и аннотаций клинических исследований. Сейчас в арсенале Кокрановской библиотеки много сотен систематических обзоров и сотни тысяч рецензируемых аннотаций рандомизированных контролируемых испытаний. История Кокрановского проекта заслуживает рассказа. В 1972 г. эпидемиолог Арчи Кокрейн (Archie Cochrane) предложил составить центральный международный регистр клинических испытаний. (В 1938 г. мятежный молодой студент-медик А. Кокрейн прошел по улицам Лондона с плакатом, на котором было написано: «Все эффективные методы лечения должны быть бесплатными». Его книга «Effectiveness and efficiency» в свое время не получила достаточного признания, но теперь она составляет базу современного понимания медицины, основанной на доказательствах.) Хотя Арчи Кокрейн не дожил до наших дней, его представление о точной на 100% медицинской базе данных приближается к реальности в Кокрановском регистре контролируемых испытаний. Кокрановская библиотека также включает две «мета-базы» (Кокрановская база данных систематических обзоров, база данных рефератов обзоров эффективности) и базу данных, посвященную научному синтезу (Кокрановская база данных по методологии обзоров). Кокрановская библиотека доступна на CD в книжном магазине Британской медицинской ассоциации. Опубликованные статьи вводятся в кокрановские базы данных участниками Кокрановского сотрудничества16 — международной сети, состоящей преимущественно из добровольцев-медиков. Каждый участник проводит вручную поиск определенного клинического журнала вплоть до его первого номера. Используя строгие методологические критерии, 50
эти люди классифицируют каждую статью в соответствии с видом публикации (рандомизированное исследование, другое контролируемое клиническое испытание, эпидемиологический обзор и т.д.) и готовят структурированные рефераты. Кокрановское сотрудничество уже идентифицировало около 60 000 исследований, которые в Medline были индексированы неправильно. Все кокрановские базы данных представлены в дружественном формате с возможностью поиска, который сходен с системой поиска в Medline. Количественные данные в обзорах представлены в стандартном графическом виде для того, чтобы врач мог быстро и объективно их оценить. В 1997 г. несколько основоположников Кокрановского сотрудничества опубликовали сборник статей-размышлений на тему первоначальных представлений А. Кокрейна и реализованных на их основе проектов. Несмотря на своеобразное название (« Неслучайные размышления...»), этот замечательный труд дает интересное представление об одной из наиболее важных совместных инициатив в медицине XX столетия17. Если вам интересно участие в Кокрановских проектах, обращайтесь в группу пользователей Кокрановской библиотеки на сайте http:// www.york.ac.uk/inst/crd/clug.htm. Литература 1. Young JM., Ward J.E. General practitioners' use of evidence databases. // Med. J. Aust. - 1999. - Vol. 170. - P. 56-58. 2. McCollA., Smith H., White P., Field J. General practitioners' perceptions of the route to evidence based medicine: a questionnaire study // BMJ. - 1998.-Vol. 316.-P. 361-365. 3. Jones R., KinmonthA.-L. Critical Reading for Primary Care. — Oxford: Oxford University Press, 1995. 4. For further details on the OVID system of Medline see the company's website http://www.ovid.com. 5. For further details on the WinSPIRS system of Medline see the company's website http://silverplatter.com. 6. The PubMed version of Medline and PreMedline can be accessed free °n the Internet on http://www.ncbi.nlm.nih.gov/PubMed/. 7. For further details on the Knowledge Finder system of Medline see the e°ttipany's website http://www.kfinder.com/newweb/. 8. Stein K, Alien N. Cross sectional survey of cervical cancer screening ln women with learning disability // BMJ. - 1999. - Vol. 318. - P. 641. 51
9. MehlerP.S. Eating disorders [letter] // N. Engl. J. Med. - 1999. - Vol. 341.-P. 614-615. 10. GrinspoonS., Miller К, CoyleC. etal. Severity of osteopenia in estrogen - deficient women with anorexia nervosa and hypothalamic amenorrhea // J. Clin. Endocrinol. Metab. - 1999. - Vol. 84. - P. 2049-2055. 11. Grinspoon S.f Herzog D., Klibanski A. Mechanisms and treatment options for bone loss in anorexia nervosa // Psychopharmacol. Bull. — 1997. — Vol. 33. - P. 399-404. 12. Moher D., Fortin P., JadadA.R. et al. Completeness of reporting of trials published in languages other than English: implications for conduct and reporting of systematic reviews//Lancet. — 1996. —Vol. 347. — P. 363—366. 13. Angulo J.M., Espinoza L.R. Gonococcal arthritis // Compr. Then — 1999.-Vol.25.-P. 155-162. 14. McKibbon K.A. evidence based practice // Bull. Med. Libr. Assoc. — 1998.-Vol.86.-P. 396-401. 15. Cochrane A. Effectiveness and Efficiency. — Lond.: Nuffield Provincial Hospitals Trust, 1972. 16. Bero L.y Rennie D. The Cochrane Collaboration: preparing, maintaining, and disseminating systematic reviews of the effects of health care//JAMA. - 1995. - Vol. 274. - P. 1935-1938. 17. MaynardA., Chalmers I. (eds). Non-Random Reflections on Health Services Research. — Lond.: BMJ Books, 1997. rn
Глава 3 С чего начать (о чем эта книга)? 3.1. Ученый и мусорная корзина Многих студентов удивляет, что примерно 99% научных публикаций годятся не для использования в практической деятельности, а для мусорной корзины. В 1979 г. редактор Британского медицинского журнала доктор Стефен Лок (Stephen Lock) писал: «Одна из самых удручающих обязанностей редактора медицинского журнала — необходимость отвергать исследования, основанные на хорошей идее, но безнадежно испорченные плохой методологией». Сейчас положение изменилось к лучшему, но не слишком сильно (врезка 3.1). Большинство статей в современных медицинских журналах строится по стандартному формату ВМРО: введение (зачем авторы взялись за эту работу), методы (как они ее проводили и как обрабатывали результаты), результаты (что они нашли) и обсуждение (что, по мнению авторов, результат означает). Чтобы решить, стоит ли читать статью, нужно сначала спросить, насколько хороши ее методы, а уже потом, интересна ли исходная гипотеза, каковы возможные последствия и о чем пишут авторы в разделе «Обсуждение». Плохая наука остается плохой, несмотря ни на важную для практики тему, ни на «статистически значимые» результаты (см. раздел 5.5), ни на выводы, которые подтверждают высказанное мнение, ни на выгоды, которые оно обещает. Строго говоря, если вы решили выбросить статью в мусорную корзину — выбрасывайте, даже не глядя на результаты. Искать прорехи в чужой работе гораздо легче, чем самому проводить безупречное с методологической точки зрения исследование. Некоторым из моих студентов кажется, что критиковать работу, на которую известный ученый потратил лучшие годы своей жизни, крайне невежливо. Однако исследователи часто осознанно идут по линии наи-
Врезка 3.1. Наиболее распространенные причины отказа в публикации ♦ Тема исследования не представляет научного интереса (см. раздел 3.2) ♦ Исследование неоригинально, т.е. кто-то уже провел такое же или похожее исследование (см. раздел 4.1) ♦ Авторская гипотеза на самом деле в статье не проверяется (см. раздел 3.2) ♦ Исследование было неправильно организовано (см. раздел 3.3) ♦ Авторам пришлось отступить от начального протокола из-за практических трудностей (например, при наборе участников) (см. раздел 4.3) ♦ Выборка участников исследования слишком мала (см. раздел 4.6) ♦ В исследовании не было контрольной группы или она не соответствовала его целям (см. раздел 4.4) ♦ Статистический анализ проведен неправильно (см. раздел 5) ♦ Выводы авторов не основываются на результатах исследования ♦ Авторы (или спонсоры исследования) небеспристрастны (например, публикация положительного результата сулит им материальные выгоды), а меры предосторожности против такого конфликта финансовых интересов и научной истины приняты не были ♦ Статья так плохо написана, что ее никто не понимает. меньшего сопротивления, прекрасно понимая, что это вредит научной ценности их работы. В большинстве хороших научных журналов статьи (до принятия решения об их публикации) посылают на рецензию специалистам для выяснения их достоверности, оригинальности и значимости. Этот процесс известен как независимое рецензирование и о нем уже многое писалось ранее2. Недостатки статей, часто отмечаемые рецензентами, приведены во врезке 3.1. Недавно я переписывалась с автором рецензируемой мною статьи (анонимно, хотя впоследствии я раскрыла свое имя) и рекомендовала ему не публиковать ее. Прочитав заключение, он согласился с моим мнением. Этот человек посвятил 5 лет кропотливой и бескорыстной работы в свободное время и постепенно осознал, что проверял важную гипотезу, но с помощью неверных методов. Автор проинформировал редакцию, что забирает свою статью «с тяжелым сердцем», отметив еще несколько недостатков своего исследования, которые я и другие рецензенты не заметили. Он 54
также написал, что не «точит на нас зуба» и готов начать всю работу заново. Его статья осталась неопубликованной, но этот человек является истинным (и очень редким) ученым. Оценка методологического качества статьи (критическая оценка) была детально описана в руководствах по доказательной медицине37, в частности в «Руководстве по использованию медицинской литературы» Д. Сакетта и соавт. в журнале Американской медицинской ассоциации32. Написанные этими авторами структурированные руководства на тему, как слезет читать статьи по лечению, диагностике, скринингу, прогнозу, этиологии, уходу за больным, экономическому анализу, многие специалисты рассматривают как проверочные листы для критической оценки. В Приложении 1 вы найдете несколько таких проверочных листов, которые я сформулировала на основании руководств по использованию медицинской литературы, приведенных в конце этой главы, а также с учетом собственных идей. Если вы давно читаете медицинские журналы, то пояснять эти проверочные листы вам не нужно. Если при чтении медицинской статьи у вас все-таки возникают трудности, ознакомьтесь с вопросами в следующем разделе. 3.2. Три первых вопроса Вопрос 1. Зачем авторы проводили это исследование и какую гипотезу они проверяли? Во введении статьи должны быть коротко объяснены предпосылки проведения данного исследования. Например, «введение спиц при переломах костей у детей — частая процедура, нередко заменяющая оперативное вмешательство». После этого заявления должен быть представлен краткий обзор литературы, например «проспективное исследование введения спиц, выполненное Гупта и Брауном, показало, что...». К сожалению, авторы часто забывают поместить свое исследование в определенный контекст, поскольку к моменту написания статьи история ИзУчаемого вопроса уже хорошо им известна. Если гипотеза, которую тестируют авторы, не оговорена во введении, ее следует четко сформулировать в разделе «Методы». Например, <<это исследование направлено на изучение безопасности и приемлемо- Сти грыжесечения в дневном стационаре по сравнению с обычным хи- РУргическим стационаром». Это важное предложение иногда упускают Ли «прячут» где-нибудь в глубине абзаца. Обычно авторы формулиру- 55
ют отрицательную гипотезу, например: «Назначение метформина в дополнение к максимальной дозе препарата из группы сульфонилмочевины не приводит к улучшению метаболического контроля при сахарном диабете II типа» — такую гипотезу называют нулевой. Авторы исследования в действительности редко верят в нулевую гипотезу. Они стремятся продемонстрировать различие между двумя группами в исследовании следующим образом: «Допустим, что разницы нет; давайте попробуем опровергнуть эту гипотезу». Согласно учению Карла Поппера, этот гипотезо-дедуктивный подход (выдвижение опровержимой гипотезы с послелующей ее проверкой) является сутью научного метода. Если вы не обнаружили гипотезы при чтении раздела «Методы», возможно, вы найдете ее в первом абзаце раздела «Обсуждение». Тем не менее следует помнить, что не все исследования (даже хорошие) спланированы для изучения одной определенной гипотезы. Качественные исследования также достоверны и необходимы, как и более распространенные количественные. Эти исследования направлены на определенный вопрос в широком аспекте с целью выработки (или пересмотра) гипотезы и расстановки приоритетов для проведения последующих работ. Такие исследования рассмотрены в главе 11. Даже количественные исследования (о которых идет речь ниже) сейчас рассматриваются как нечто большее, чем просто проверка гипотезы. Как обсуждается в разделе 5.5, гораздо важнее говорить о силе доказательств, касающихся конкретного вопроса, а не просто о подтверждении или опровержении гипотезы. Вопрос 2. Какого типа проведенное исследование? Сначала следует установить, какое исследование описано в статье— первичное или вторичное. Первичные исследования приводят данные «из первых рук», во вторичных исследованиях пытаются обобщить сведения и вывести заключения на основе первичных. Первичные исследования, составляющие большинство публикаций в медицинских журналах, подразделяют на 3 категории: • Эксперименты (experiment), в которых проводят опыты на животных или добровольцах в искусственных и контролируемых условиях. • Клинические испытания (clinical trial), при которых вмешательство, например лекарственная терапия, проводят на группе пациентов с последующим ее наблюдением. • Исследования (survey), при которых что-либо измеряют в группе пациентов, работников здравоохранения или в других группах людей. 56
Самые распространенные типы клинических испытаний и исследований обсуждаются в последующих разделах этой главы. Убедитесь, что вы понимаете все термины, используемые при описании дизайна исследования (врезка. 3.2). Вторичные исследования • Обзоры, подробно рассмотренные в главе 8, подразделяют на: — несистематические, обобщающие результаты первичных исследований; — систематические, также обобщающие результаты первичных исследований, но на основе жесткой и заранее определенной методологии; — мета-анализы, обобщающие количественные данные нескольких исследований (как минимум двух). • Клинические рекомендации рассмотрены в главе 9. В них сформулированы выводы из первичных исследований, касающиеся требований к действиям врачей. • Анализ принятия решений подробно рассмотрен в других источниках16,1734. На основе результатов первичных исследований он позволяет создавать вероятностные подходы к управлению здравоохранением или распределению ресурсов (как для работников здравоохранения, так и для пациентов); строить «дерево» решений, которые принимают врачи, пациенты или администраторы при выборе способов лечения или при распределении ресурсов. • Экономический анализ рассмотрен в главе 10. Используя результаты первичных исследований, он позволяет делать выводы о целесообразности финансирования определенных вмешательств. Вопрос 3. Адекватен ли дизайн исследования изучаемому явлению? Примеры вопросов, на которые можно ответить с помощью различных типов первичных исследований, приведены в последующих разделах. Часто возникает вопрос: действительно ли рандомизированное контролируемое испытание (см. раздел 3.3) — наилучший метод проверки гипотезы, и если исследование не было таковым, то почему оно должно им бь1ть. До принятия поспешных выводов следует решить, какая область 3атронута в данном клиническом исследовании (врезка 3.3). Затем спро- СИте, использовался ли правильный дизайн исследования для ответа на Ставленный вопрос в данной области. Более подробная информация Многие находят ее сложной, пока не привыкнут ей пользоваться) при- 57
Врезка 3.2. Термины, используемые для описания дизайна клинических исследований Термин Сравнение параллельных групп Парное сравнение (или подобранные пары) Сравнение результатов у одного и того же пациента Одиночное слепое исследование Двойное слепое исследование Перекрестное исследование Плацебо-контролируемое исследование Факториальный тип исследования Значение Пациенты каждой группы получают разные виды лечения, которые в этих группах предоставляются одновременно. Результаты анализируются путем сравнения групп Пациенты, получающие разные виды лечения, подбираются парами с одинаковыми характеристиками, например возрастом и полом (для того, чтобы устранить влияние этих вмешивающихся переменных). Результаты анализируют, изучая различия внутри пар Состояние пациентов оценивают до и после вмешательства; результаты анализируют с учетом изменений у одного и того же пациента Пациенты не знали, какое лечение они получали Ни исследователи, ни пациенты не знали, кто и какое лечение получал Каждый пациент получал лечение аналогично пациентам контрольной и опытной групп (в случайном порядке), часто с промежутками без какого бы то ни было лечения Пациенты контрольной группы получают плацебо (неактивный препарат), который должен выглядеть, как активный препарат, и иметь такой же вкус. Плацебо также может быть использовано в хирургических исследованиях (фиктивное вмешательство, ложная операция) Исследование, позволяющее изучать влияние (как вместе, так и по отдельности) более чем одного независимого фактора на определенный исход (например, факториальный дизайн 2x2 позволяет изучить эффекты плацебо, изолированного назначения аспирина, стрептокиназы или комбинации аспирина и стрептокиназы при инфаркте миокарда) 58
Врезка 3.3. Области клинических исследований Лечение — проверка эффективности лекарственных препаратов, хирургических вмешательств, альтернативных методов лечения и других вмешательств. Предпочтительный дизайн исследования — рандомизированное контролируемое испытание (см. раздел 3.3 и главу 6). Диагностика — выяснение таких параметров нового диагностического теста, как достоверность (можно ли ему доверять) и надежность (получили бы мы такие же результаты при повторных исследованиях). Предпочтительный дизайн исследования — поперечное исследование (см. раздел 3.6 и главу 7), при котором проводят как новый тест, так и тест, служащий «золотым стандартом». Скрининг — выяснение ценности тестов, применяемых к большим группам людей, позволяющих выявить заболевание на ранней (бессимптомной) стадии. Предпочтительный дизайн исследования — поперечное исследование (см. раздел 3.6 и главу 7). Прогноз — определение того, что может вероятно произойти с пациентом, у которого болезнь диагностировали на ранних стадиях. Предпочтительный дизайн исследования — продольное (лонгитудинальное) когортное исследование (см. раздел 3.4). Этиология — определение зависимости между гипотетическим вредоносным фактором (например, пыльцой растений) и развитием заболевания. Предпочтительный дизайн исследования — когортное исследование или исследование случай—контроль в зависимости от распространенности заболевания (см. разделы 3.4 и 3.5); описания отдельных случаев (см. раздел 3.7) также могут дать важную информацию водится на Интернет-сайте Оксфордского центра доказательной медицины38 или в статьях этой же группы исследователей39. В большинстве исследований речь идет о лечении и/или диагностике, скрининге, прогнозе и этиологии заболевания (см. врезку 3.3). 3.3. Рандомизированные контролируемые испытания В рандомизированных контролируемых испытаниях (РКИ) участников случайным образом распределяют по группам с помощью процесса, аналогичного подбрасыванию монеты. Одни пациенты попадают в опытную группу (например, лечебную), а другие — в контрольную (например, в группу получающих плацебо). За обеими группами ведут на- 59
блюдение в течение определенного времени и проводят анализ исходов, формулируемых в начале исследования (например, летальный исход, инфаркт миокарда, концентрация холестерина в сыворотке и т.д.). Поскольку в среднем группы идентичны (за исключением проводимого вмешательства), теоретически любые изменения в исходах должны обусловлавливаться изучаемым вмешательством. Тем не менее на практике все не так гладко. Некоторые публикации, в которых сообщают о сравнении опытной и контрольной групп, на самом деле не являются рандомизированными испытаниями. Их обозначают как «другие контролируемые клинические испытания» — термин, используемый для сравнительных исследований, при которых пациентов распределяют в опытную и контрольную группы неслучайным образом. Такая ситуация может возникнуть, например, при невозможности случайного распределения пациентов по техническим или этическим соображениям. Проблемы неслучайного распределения участников по группам обсуждаются в разделе 4.4 в связи с определением возможности статистического сравнения двух групп в испытании. Некоторые исследования занимают промежуточное положение между рандомизированными и нерандомизированными. В подобных ситуациях рандомизация проведена не вполне случайно (как, например, в случае с использованием последовательно пронумерованных с внешней стороны конвертов, каждый из которых имеет внутри случайный номер, присвоенный компьютером), а с упрощениями, позволяющими врачу узнать, в какой группе окажется пациент до принятия решения ран- домизировать пациента. Подобный подход способствует увеличению вероятности систематической ошибки (смещения) — врач может включить пациента в исследование, полагая, что пациенту может стать лучше от проводимого лечения. Исследователь может подсознательно не включить в группу, получающую плацебо, пациентов с тяжелыми заболеваниями. Примеры неприемлемых методов —рандомизация по последней цифре дня рождения пациента, последовательное размещение (пациента А — в 1 -ю группу, пациента В — во 2-ю группу и т.д.), или по дате поступления пациента в клинику (все пациенты, поступившие за эту неделю — в группу А, за следующую — в группу Б, и т.д.)4. Ниже приведены примеры клинических вопросов, на которые лучший ответ дает РКИ, а также могут и должны дать другие типы исследований. • Лучше ли данный лекарственный препарат по сравнению с плацебо или другим препаратом при данном заболевании. 60
Врезка 3.4. Преимущества рандомизированных контролируемых испытаний • Четкая оценка одиночной переменной (например, эффект лекарственного препарата по сравнению с плацебо) в строго определенной группе пациентов (например, женщины в менопаузе в возрасте 50—60 лет) • Проспективный дизайн (т.е. данные накапливают после того, как вы решили провести исследование) • Гипотетико-дедуктивный подход (т.е. попытка провести фальсификацию, а не подтвердить собственную гипотезу; см. раздел 3.2) • Потенциальное исключение ошибки путем сравнения двух в остальном идентичных групп (см. ниже, а также раздел 4.4) • Возможность проведения в последующем мета-анализа (комбинирование количественных результатов из нескольких подобных исследований), см. раздел 8.3 • Лучше ли новая хирургическая процедура по сравнению с общепринятым подходом, используемым в настоящее время. • Лучше ли брошюра по сравнению с устными рекомендациями врача, для принятия больным участия в выборе собственного лечения. • Приведет ли замена маргарина с высоким содержанием насыщенных жиров на маргарин с высоким содержанием полиненасыщенных к изменению концентрации холестерина в сыворотке. РКИ — «золотой стандарт» при проведении медицинских исследований. Однако это положение истинно (см. раздел 3.8) только при определенных типах клинических вопросов (см. табл. 3.3 и разделы 3.4—3.7). Обычно все эти вопросы касаются вмешательств, как правило, терапевтических, или профилактических мероприятий. Следует, однако, помнить, что даже при проведении медицинских вмешательств (и уж особенно если их не проводят) РКИ обладают рядом важных недостатков (см. врезку 3.5)41. Следует помнить, что РКИ могут иметь ограниченное применение в результате критериев исключения (ограничивающих набор пациентов в исследование), исследовательской систематической ошибки (выбор пациентов для исследования из группы, нерепрезентативной по отношению ко всем участникам исследования с определенным состоянием [см. Раздел 4.2]), отказ некоторых групп пациентов от участия в исследовании42, анализ только заранее определенных «объективных» исходов, ко- 61
Врезка 3.5. Недостатки рандомизированных контролируемых испытаний Проведение РКИ дорого и требует времени, поэтому в практической деятельности: • многие испытания либо не проводят вообще, либо проводят на слишком маленькой группе пациентов или в течение слишком короткого периода времени (см. раздел 4.6); • большинство испытаний оплачивают крупные исследовательские институты, университеты, правительство или фармацевтические компании, которые в конечном итоге диктуют направление исследований; • вместо клинических исходов часто используют суррогатные конечные точки (косвенные критерии оценки, см. раздел 6.3). Скрытые систематические ошибки, возникающие при проведении РКИ, могут возникать в результате следующих причин: • несовершенная рандомизация (см. выше) • отсутствие рандомизации всех пациентов, пригодных для исследования (исследователь включает в испытание только тех пациентов, которые, по его мнению, будут хорошо отвечать на данное вмешательство); • исследователи (вопреки плану) осведомлены, в какой группе находится тот ли иной пациент (т.е. не проводится ослепление, см. раздел 4.5). торые могут исключать важные качественные аспекты вмешательства4' (см. главу 11), систематическая ошибка, связанная с преимущественной публикация положительных результатов исследований43. Более того, РКИ могут быть по-разному организованы (хорошо или плохо)44, и после публикации их результаты могут быть искажены некоторыми не в меру активными деятелями науки или широкой общественностью в поисках чудо-препарата45. Хотя все эти проблемы могут возникать при проведении других типов исследований, они особенно актуальны для РКИ, результаты которого преподносят вам как идеальные. Кроме того, существует множество ситуаций, при которых проведение РКИ либо не нужно, либо непрактично, либо необосновано. РКИ не нужно проводить: • при открытии явно успешного вмешательства для состояния с фатальным исходом, при котором это вмешательство жизненно необходимо. 62
• при наличии определенных результатов других РКИ или мета-анализов (положительных или отрицательных, см. раздел 5.5). Некоторые возразят, что неэтично просить пациентов участвовать в клиническом исследовании до систематического обзора литературы с целью выяснения, нужно ли вообще проводить это исследование. Проведение РКИ нецелесообразно: • при этической неприемлемости просить согласия пациента участвовать в исследовании46; • при слишком большом числе пациентов, необходимых для демонстрации выраженной разницы между группами (см. раздел 4.6). Проведение РКИ необосновано: • при изучении прогноза заболевания. Для этой цели лучше подходит продольное (когортное) исследование при адекватном наборе исходной группы пациентов (см. раздел 3.4); • при изучении достоверности диагностического или скринингового теста. Для этой цели лучше подходит «поперечное» исследование с исследованием пациентов с подозрением на соответствующее заболевание (см. раздел 3.6 и главу 7); • при изучении качества медицинского ухода без четких критериев его «успешности». Например, при проведении РКИ, сравнивающего терапевтические и хирургические методы аборта, критериями успеха можно считать число пациенток с тотальным извлечением эмбриональной ткани, величину кровопотери или интенсивность боли. Сами пациентки могут считать важными совсем другие аспекты, например, сведения о том, сколько времени продлится процедура, не увидит ли пациентка зародыш или не почувствует ли его извлечение и т.д. Лучший ответ может дать метод качественного исследования7 (см. главу 11). Клинические эпидемиологи детально обсудили все эти аспекты3,6, напомнив нам, что отказ от нерандомизированных исследований может свидетельствовать о клинической наивности и не всегда, как полагают многие, отражает консервативность мышления. В настоящее время появился рекомендуемый формат публикации РКИ в медицинских Журналах, которому нужно стараться следовать, даже если вы проводите исследование для собственных целей48. Для более подробного обсуждения достоинств и недостатков РКИ я рекомендую ознакомиться с пол- Ньш выпуском Британского медицинского журнала от 31.10.98 (BMJ 63
1998; 317: 1167—261), а также недавно вышедшей книгой и журнальными статьями50. 3.4. Когортные исследования При проведении когортного исследования набирают две или более группы пациентов. Группы различаются по воздействию определенного агента (например, вакцины, лекарственного препарата или токсина окружающей среды). В дальнейшем эти группы наблюдают, отмечая, у какой доли пациентов из каждой группы развивается определенное заболевание (или наступил другой исход). Период наблюдения в когортных исследованиях обычно исчисляют годами (иногда десятилетиями), поскольку примерно столько времени необходимо, чтобы развилось то или иное заболевание (особенно если это рак). Следует отметить, что РКИ проводят на людях, уже имеющих заболевания, а для когортных исследований набирают лиц, у которых заболевание может и не развиться. Особый тип когортного исследования можно также использовать для определения прогноза заболевания (т.е. что может произойти с больным человеком). В начальную когорту набирают лиц на ранних стадиях определенного заболевания или с положительными результатами скринин- гового теста (см. главу 7). Далее эту группу периодически наблюдают для оценки заболеваемости (число новых случаев заболевания в год) и темпа развития различных исходов. Следует запомнить как можно лучше, что частота (заболеваемость) — это число новых случаев в год, а распространенность (болезненность) — это доля больных с определенным заболеванием в общей популяции. Наиболее известное когортное исследование, по результатам которого двум ученым было присвоено рыцарское звание, провели сэр Ос- тен Брэдфорд Хилл (А.В. Hill), сэр РичардДолл (R. Doll) и присоединившийся к концу исследования Ричард Пито (R. Peto). Они проводили наблюдение за 40 000 британских врачей, которых разделили на 4 когорты (некурящие, курящие мало, курящие умеренно и курящие много). В качестве исходов приняли общую смертность (смерть от любой причины) и смертность в результате определенного заболевания. Публикация их 10-летнего исследования в 1964 г. показала существенное увеличение смертности курильщиков как от рака легкого, так и от других причин. Был продемонстрирован «дозо-зависимый» эффект (т.е. чем больше курить, тем выше шансы заболеть раком легких). Таким образом, исследователи показали, что взаимосвязь между курением и заболева- 64
емостью скорее закономерна, чем случайна. Результаты через 2052 и 40 лет от начала этого важного исследования (с впечатляющей цифрой 94% остававшихся в живых с момента набора в 1951 г.) продемонстрировали роль курения как фактора риска и убедительную силу доказательства, полученного в результате правильно проведенного когортного исследования. Примеры вопросов, на которые лучший ответ дает когортное исследование. • «Приводит» ли прием пероральных контрацептивов к развитию рака молочной железы. Обратите внимание, что слово «приводит» взято в кавычки, поскольку несет несколько особую смысловую нагрузку. Как пишет Джон Гиллебод (John Guillebaud) в своей замечательной книге «Таблетка»54, если тысяче женщин назначить препарат, то у некоторых из них разовьется рак молочной железы. Однако у части женщин он развился бы и без приема перорального контрацептива. Клинические эпидемиологи через проведение ко- гортных исследований пытаются ответить на вопрос, каков дополнительный риск развития рака молочной железы у женщин вследствие приема пероральных контрацептивов по сравнению с обычным риском развития этого заболевания у женщин, не принимающих этих препаратов. Риск рака молочной железы обусловлен, в частности, гормональным дисбалансом, наследственными факторами, питанием, потреблением алкоголя и т.д. • Приводит ли курение к развитию рака легких53. • Нормализуется ли со временем повышенное артериальное давление. • Что происходит с недоношенными детьми через несколько лет после рождения, каковы их последующее физическое развитие и успехи в учебе. 3.5. Исследования «случай—контроль» При проведении исследований случай—контроль пациентов с определенным заболеванием или состоянием («случаи») сравнивают с контрольными пациентами (пациенты с другим заболеванием, представители общей популяции, соседи или родственники пациентов). Затем собирают информацию (например, по выпискам из историй болезни, амбулаторных карт или путем прямого опроса) о возможном воздействии на них в прошлом вредоносного агента, приводящего к развитию определенного заболевания. Как и при когортных исследованиях, в исследованиях случай—кон- 65
троль обычно изучают этиологию заболевания, а не его лечение. В «иерархии доказательств» (см. раздел 3.8) они занимают менее привилегированное положение, но данный дизайн — обычно единственная возможность изучения редких заболеваний. Значительная трудность при проведении исследования случай—контроль и исключении систематической ошибки — точное определение «случая», поскольку необоснованное включение пациента в группу может сильно исказить результаты (см. раздел 4.4). Кроме того, данный дизайн не может достоверно указать причину заболевания. Другими словами, связь А и Б в исследовании случай—контроль не означает того, что А есть причина Б. Примеры вопросов, ответ на которые может дать исследование случай- контроль. • Увеличивает ли наклонное положение тела во время сна риск внезапной смерти ребенка грудного возраста. • Приводит ли введение противококлюшной вакцины к повреждению мозговой ткани (см. раздел 4.4). • Вызывают ли причинная связь между высоковольтными линиями электропередач и возникновением лейкозов. 3.6. Поперечные исследования Вероятно, всем нам когда-либо предлагали поучаствовать в каком- либо исследовании (скажем, кто-то остановил вас на улице и спросил, какую зубную пасту вы предпочитаете). Исследования, проводимые клиническими эпидемиологами, строятся примерно по такому же принципу: проводят интервью, обследуют или иным образом изучают репрезентативную выборку лиц (или пациентов) для ответа на конкретный клинический вопрос. При «поперечном» исследовании, данные собирают в определенный момент, хотя собранные факты могли касаться событий в прошлом (например, изучение амбулаторных карт пациентов с целью изучения того, как часто измеряли артериальное давление за последние 5 лет). Вопросы, на которые должно дать ответ «поперечное» исследование. • Каков «нормальный» рост 3-летнего ребенка. Ответ на этот вопрос, как и на другие вопросы касательно вариантов нормы, можно получить путем простого измерения роста здоровых 3-летних детей. Однако это не даст ответа на вопрос, когда ребенка с отставанием в росте следует обследовать на то или иное заболевание, поскольку существует «перекрытие» между физиологическими и 66
патологическими показателями. Эта проблема обсуждается в дальнейшем в разделе 7.4. • Насколько медсестры верят в эффективность электрошоковой терапии больных с тяжелой депрессией. • Верно ли, что половина всех случаев сахарного диабета остается недиагностированной. Это пример более общего вопроса: какова заболеваемость сахарным диабетом (т.е. доля лиц с этим заболеванием) в конкретной популяции. Единственный способ ответить на этот вопрос — применить определенный диагностический тест в репрезентативной выборке данной популяции. 3.7. Описания случаев Описание случая представляет собой историю болезни одного пациента (например, «миссис В., секретарша 54 лет, у которой в июне 2000 г. появилась боль в грудной клетке...»). Описания случаев часто объединяют в серии случаев, при которых описывают несколько историй болезни у лиц с определенной патологией с целью демонстрации эффективности лечения или (что чаще в наши дни) побочных реакций на терапию. Хотя в иерархии доказательств описания случаев считают относительно слабым доказательством, большая доля информации передается именно с помощью описания случаев. Подобная информация может быть потеряна для включения в клиническое испытание или исследование (см. главу 11). Кроме того, описания случаев не создают ни малейших трудностей в понимании как врачами, так и непрофессионалами. При необходимости описания случаев можно опубликовать в течение нескольких дней, что с точки зрения интервала между началом исследования и появлением публикации выгоднее по сравнению с мета-анализами (длящимися годами) или клиническими испытаниями (продолжающимися по нескольку месяцев). Определенная группа врачей призывает «восстановить в правах» описания случаев, поскольку они вносят заметный вклад в медицинскую науку. Клинические ситуации, в которых адекватны описания случаев или серии случаев • два младенца родились без конечностей (фокомелия). Обе матери на ранних сроках беременности принимали новый препарат (тали- домид). Врач желает как можно скорее предупредить своих коллег 67
во всем мире о возможности ятрогенной фокомелии. Пусть тот, кто считает, что «быстрые и неряшливые» описания случаев никогда не оправданы с научной точки зрения, вспомнит этот пример. • У пациента, принимавшего два различных препарата, терфенадин (по поводу сенной лихорадки) и итроконазол (в связи с грибковой инфекцией), в отсутствие побочных эффектов в прошлом при их приеме по отдельности развивается опасная для жизни аритмия при их одновременном приеме. Лечащий врач предполагает, что это результат лекарственного взаимодействия, и спешит об этом сообщить. 3.8. Традиционная «иерархия доказательств» При принятии решений о проведении клинических вмешательств различные типы первичных исследований имеют различную ценность («иерархия доказательств»). Доказательства располагаются в следующем порядке20. 1. Систематические обзоры и мета-анализы (см. главу 8). 2. РКИ с определенными результатами (доверительные интервалы не выходят за рамки клинически значимого эффекта, см. раздел 5.5). 3. РКИ с неопределенными результатами (доверительные интервалы выходят за рамки клинически значимого эффекта, см. раздел 5.5). 4. Когортные исследования. 5. Исследования «случай—контроль». 6. Поперечные исследования. 7. Сообщения о случаях. На вершине иерархии закономерно располагаются вторичные исследования, в которых обобщены результаты всех первичных исследований по данному вопросу с учетом их критической оценки на основе жестких критериев (см. главу 8). Однако следует помнить, что и некачественный мета-анализ, и РКИ с серьезными методологическими недостатками уступают по значимости крупному и хорошо организованному когортному исследованию. Как показано в главе 11, многие важные и достоверные качественные исследования вообще не вписываются в эту иерархию. Иными словами, оценка возможного вклада конкретного исследования в развитие медицинской науки требует значительно больших усилий, нежели это необходимо согласно приведенной 7-ступенчатой «иерархии доказательств». 68
3.9. Этические замечания Когда я была молодым врачом, я получила работу во всемирно известной больнице. Одной их моих обязанностей было ведение пожилых пациентов, пострадавших в результате несчастных случ'аев. Вскоре после начала работы меня пригласили пообедать два очаровательных медицинских сотрудника из отдела статистики, которые (как я поняла впоследствии) искали моей помощи в проводимом ими исследовании. В обмен на обещание включить меня в список авторов они попросили меня провести биопсию прямой кишки (т.е. вырезать из нее кусочек ткани) у каждого пациента старше 90 лет, страдающего запором. Я попросила у них копию документа, подтверждающего согласие пациента на такое исследование. Когда они стали уверять меня, что человек в возрасте 90 лет едва ли заметит данную процедуру, я почуяла подвох и отказалась с ними сотрудничать. Я была слишком наивна и неграмотна, чтобы осознать серьезность преступления, планируемого этими врачами. Проведение любого исследования, особенно инвазивных процедур, на беззащитном больном без учета всех этических соображений является преступлением, а также и поводом для увольнения врача. При возникновении этических трудностей получение разрешения на проведение исследования может быть серьезным бюрократическим препятствием58, но это законное требование, которое раньше часто игнорировали, особенно при проведении исследований на пожилых и пациентах с умственной отсталостью. Большинство редакторов не станут публиковать статью, не одобренную локальным этическим комитетом. Если у редактора или читателя возникают сомнения в этической безупречности работы, никто не мешает напрямую потребовать у авторов копию соответствующего документа. На эти вопросы можно взглянуть и с другой стороны. Этические комитеты часто выносят отрицательные заключения, несмотря на то, что в неопределенных клинических ситуациях информированный пациент мо- *ет помочь исследователям уменьшить эту неопределенность. Можно также вспомнить такой пример: РКИ, показавшие эффективность фо- яиевой кислоты у женщин на ранних сроках беременности для предот- вРащения дефектов нервной трубки у плода60, годами откладывались из- За сопротивления этических комитетов. AQ
Литература 1. Altman D.G. The scandal of poor medical research // BMJ. - 1994. - Vol. 308. - P. 283A. 2. Jefferson Т., GodleeF. Peer Review in Health Sciences. — Lond.: BMJ Books, 1999. 3. Sackett D.L., Haynes R.B., Guyatt G.H., Tugwell P. Clinical Epidemiology — a Basic Science or Clinical Medicine. — Lond.: Little, Brown, 1991. 4. Sackett D.L., Richardson W.S., Rosenberg W.M.C., Haynes R.B. Evidence Based Medicine: How to Practice and Teach EBM. — 2nd ed. — Lond.: Churchill Livingstone, 2000. 5. Crombie I.M. The Pocket Guide to Critical Appraisal. — Lond.: BMJ Publications, 1996. 6. FletcherR.H., FletcherS.W., WagnerE.H. Clinical Epidemiology: the Essentials. — 3rd ed. — Baltimore: Williams and Wilkins, 1996. 7. Rose G., Barker DJ.P. Epidemiology for the Uninitiated. — 4th ed. — Lond.: BMJ Publications, 1999. 8. Oxman A.D., Sackett D.S., Guyatt G,H. Users' guides to the medical literature. I. How to get started // JAMA. - 1993. - Vol. 270. - P. 2093- 2095. 9. Guyatt G.H., Sackett D.L., Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. A. Are the results of the study valid? // Ibid. - P. 2598-2601. 10. Guyatt G.H., Sackett D.L., Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. B. What were the results and will they help me in caring for my patients? // Ibid. — 1994.-Vol. 271.-P. 59-63. 11. Jaeschke R., Guyatt G., Sackett D.L. Users' guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? // Ibid. - P. 389-391. 12. Jaeschke R., Guyatt G., Sackett D.L. Users' guides to the medical literature. III. /How to use an article about a diagnostic test. B. What were the results and will they help me in caring for my patients? // Ibid. — 703—707. 13. Levine M.t Walter S., Lee H. et al. Users' guides to the medical literature. IV How to use an article about harm // Ibid. — P. 1615—1619. 14. Laupacis A.f Wells G., Richardson W.S., Tugwell P. Users' guides to the medical literature. V How to use an article about prognosis. // Ibid. — P. 234-237. 70 \
15. Oxman A.D., Cook D.J., Guyatt G.H. Users' guides to the medical literature. VI. How to use an overview// Ibid. - Vol. 272. - P. 1367-1371. 16. Richardson W.S., DetskyA.S. Users' guides to the medical literature. VII. How to use a clinical decision analysis. A. Are the results of the study valid? // Ibid. - 1995. - Vol. 273. - P. 1292-1295. 17'. Richardson W.S., DetskyA.S. Users'guides to the medical literature. VII. How to use a clinical decision analysis. B. What are the results and will they help me in caring for my patients? // Ibid. — P. 1610—1613. 18. Hayward R.S.A.,Wilson M.C., Tunis S.R. et al. Users' guides to the medical literature. VIII. How to use clinical practice guidelines. A. Are the recommendations valid? // Ibid. — Vol. 274. — P. 570. 19. Wilson M.C., Hayward R.S., Tunis S.R. et al. Users' guides to the medical literature. VIII. How to use clinical practice guidelines. B. Will the recommendations help me in caring for my patients? // ibid. — P. 1630— 1632. 20. Guyatt G.H., Sackett D.L., Sinclair J.C. et al. Users' guides to the medical literature. IX. A method for grading health care recommendations. // Ibid. - P. 1800. 21. Nay lor C.D., Guyatt G.H. Users' guides to the medical literature. X. How to use an article reporting variations in the outcomes of health services // Ibid. - 1996. - Vol. 275. - P. 554-558. 22. Nay lor CD., Guyatt G.H. Users' guides to the medical literature. XI. How to use an article about a clinical utilization review// Ibid. — P. 1435— 1439. 23. Guyatt G.H., Naylor CD., Juniper E. et al. Users' guides to the medical literature. XII. How to use articles about health-related quality of life // Ibid. - 1997. - Vol. 277. - P. 1232-1237. 24. DrummondM.F., Richardson W.S., O'Brien В J. eral. Users' guides to the medical literature. XIII. How to use an article on economic analysis of clinical practice. A. Are the results of the study valid? // Ibid. — P. 1552— 1557. 25. O'Brien В J., Heyland D., Richardson W.S. et al. Users' guides to the medical literature. XIII. How to use an article on economic analysis of clinical practice. B. What are the results and will they help me in caring for my patients? // Ibid. - P. 1802-1806. 26. Dans A.L., Dans L.F., Guyatt G.H., Richardson S. Users' guides to the medical literature. XIV How to decide on the applicability of clinical trial results to your patient // JAMA. - 1998. - Vol. 279. - P. 545-549. 71
27. Richardson W.S., Wilson M.C., Guyatt G.H. et al. Users' guides to the medical literature. XV. How to use an article about disease probability for differential diagnosis // Ibid. - 1999. - Vol. 281. - P. 1214-1219. 28. Guyatt G.H., Sinclair J., Cook D.J., Glasziou P. Users' guides to the medical literature. XVI. How to use a treatment recommendation // Ibid. — P. 1836-1843. 29. Barratt A., IrwigL., Glasziou P. et al. Users' guides to the medical literature: XVII. How to use guidelines and recommendations about screening// Ibid. - P. 2029-2034. 30. Randolph A.G., Haynes R.B., Wyatt J.C. et al. Users' guides to the medical literature. XVIII. How to use an article evaluating the clinical impact of a computer-based clinical decision support system // Ibid. — Vol. 282. — P. 67-74. 31. Giacomini M.K, Cook DJ. A user's guide to qualitative research in health care. Part I: Are the results of the study valid? // JAMA. - 2000. - P. 357-362. 32. Giacomini М/С, Cook DJ. A user's guide to qualitative research in health care. Part II: What are the results and how do they help me care for my patients? // Ibid. - P. 478-482. 33. Popper К Conjectures and Refutations: the Growth of Scientific Knowledge. — N.Y.: Routledge and Kegan Paul, 1963. 34. Thornton J.G., Ulford RJ., Johnson N. Decision analysis in medicine // BMJ. - 1992. - Vol. 304. - P. 1099-1103. 35. Thornton J.G., LilfordRJ. Decision analysis for medical managers // Ibid. - 1995. - Vol. 310. - P. 791. 36.DowieJ. «Evidence-based», «cost-effective», and «preference-driven» medicine //J. Health Serv. Res. Policy. - 1996. - Vol. 1. - P. 104-113. 37. ISIS-2 Collaborative Group. Randomized trial of intravenous streptokinase, aspirin, both, or neither among 17187 cases of suspected acute myocardial infarction: ISIS-2 // Lancet. - 1988. - Vol. 2. - P. 349-360. 38. http://cebm.jr2.ox.ac.uk/docs/studies.html. 39. Sackett D.L.,Wennberg J.E. Choosing the best research design for each question // BMJ. - 1997. - Vol. 315. - P. 1636. 40. Stewart L.A., Parmar M.KB. Bias in the analysis and reporting of randomized controlled trials // Int. J. Technol. Assess Health Care. — 1996. — Vol. 12.-P. 264-275. 41. Bero L.A., Rennie D. Influences on the quality of published drug studies // Ibid. - P. 209-237. 72
42. Maclntyre I.M.C. Tribulations for clinical trials. Poor recruitment is hampering research//BMJ. - 1991. - Vol. 302. - P. 1099-1100. 43. Stern J.M., Simes RJ. Publication bias: evidence of delayed publication in a cohort study of clinical research projects // Ibid. — 1997. — Vol. 315.-P. 640-645. 44. FarrellB. Efficient management of randomized controlled trials: nature or nurture//Ibid. - 1998. - Vol. 317. - P. 1236-1239. 45. McCormack J., Greenhaigh T. Seeing what you want to see in randomized controlled trials: versions and perversions of the UK PDS data // Ibid. - 2000. - Vol. 320. - P. 720-723. 46. Lumley J., Bastian H. Competing or complementary: ethical considerations and the quality of randomized trials // Int. J. Technol. Assess. Health Care. - 1996. - Vol. 12. - P. 247-263. 47. MaysN., Pope С (eds). Qualitative Research in Health Care. — 2nd ed. - Lond.: BMJ Publications, 2000. 48. Altman D. Better reporting of randomized controlled trials: the CONSORT statement // BMJ. - 1996. - Vol. 313. - P. 570-571. 49. JadadA.R. Randomized Controlled Trials: a User's Guide. - Lond.: BMJ Publications, 1998. 50. Britton A., McKee M., Black N. et al. Choosing between randomized and non-randomized studies: a systematic review// Health Technol. Assess. — 1998.-Vol.2.-P. 1-124. 51. Doll R., Hill A.B. Mortality in relation to smoking: ten years' observations on British doctors//BMJ. - 1964. - No. I. - P. 1399-1414, 1460-1467. 52. Doll R., Peto R. Mortality in relation to smoking: ten years' observations on British doctors // Ibid. - 1976. - No. II. - 1525-1536. 53. Doll R.f Peto R„ Wheatley K, Gray R,. Sutherland I. Mortality in relation to smoking: 40 years' observations on male British doctors // Ibid. — 1994.-Vol.309.-P. 901-911. 54. GuillebaudJ. The Pill. — 4th ed. — Oxford: Oxford University Press, 1991. 55. Macnaughton J. Anecdote in clinical practice // Narrative Based Medicine: Dialogue and Discourse in Clinical Practice. / Eds T. Greenhaigh, B. Hurwitz. - Lond.: BMJ Publications, 1999. - P. 202-211. 56. McBride W.G. Thalidomide and congenital abnormalities // Lancet. - 1961.-Vol. 2.-P. 1358. 57. Pohjola-Sintonen S., Viitasalo M., Toivonen L., Neuvonen P. Itraconazole prevents terfenadine metabolism and increases the risk of 73
torsades de pointes ventricular tachycardia // Eur. J. Clin. Pharmacol. — 1993.-Vol. 45.-P. 191-193. 58. Middle C, Johnson A., Petty T, Sims L., Macfarlane A. Ethics approval for a national postal survey: recent experience // BMJ. — 1995. — Vol. 311.-P. 659-660. 59. Olde Rickert M.G.M., ten Have HAM.J., Hoemagels W.H.L. Informed consent in biomedical studies on ageing: survey of four journals // Ibid. - 1996. - Vol. 313. - P. 1117. 60. IVitamin Research Group. Prevention of neural tube defects. Results of the MRC Vitamin Study // Lancet. - 1991. - Vol. 338. - P. 131 -137. 74
Глава 4 Оценка методологического качества В разделе 3.1 мы отмечали, что качество статьи зависит от того, насколько хорошо написан раздел «Методы». В этой главе приведены 5 основных вопросов, которые должны лечь в основу вашего решения о том, «выбрасывать» статью или нет, какие выводы делать на ее основании и использовать ли статью в практической деятельности: • Является ли исследование оригинальным? • О ком говорится в исследовании? • Хорошо ли исследование спланировано? • Удалось ли в исследовании избежать систематических ошибок (т.е. было ли оно адекватно «контролируемым»)? • Является ли исследование достаточно крупным и продолжительным для того, чтобы результаты вызывали доверие? Эти вопросы подробно рассмотрены ниже. 4.1. Является ли исследование оригинальным? Отвечать на научный вопрос нет смысла, если на него уже ответил кто-то другой. На практике научные открытия встречаются редко. Только незначительная часть медицинских исследований открывает новые области, примерно столько же повторяет шаги предыдущих. Большинство научных исследований (если они методологически правильны) говорит нам о том, что определенная гипотеза является с большей или меньшей вероятностью правильной, — таким образом, к обширной научной мозаике добавляется еще один «кусочек». Итак, можно провести безупречное исследование, которое при ближайшем рассмотрении окажется ^неоригинальным». Вся наука мета-анализа основывается на том, что по многим клиническим вопросам проведено нескольких клинических исследований, в которых задавался один и тот же вопрос примерно одинаковым способом. 75
Практичнее задавать не вопрос «проводили ли раньше подобное исследование», а «вносит ли это исследование новый вклад в медицинскую науку». • Является ли это исследование более крупным, продолжительным или в иных отношениях более значимым, чем предыдущие? • Являются ли методы этого исследования более точными (особенно учитывает ли оно критические замечания к методологии предыдущих исследований)? • Внесут ли количественные результаты этого исследования значительный вклад в результаты мета-анализа, проведенного на основе предыдущих исследований? • Отличается ли изучаемая популяция (по этническому происхождению, возрасту или полу) от популяций в предыдущих исследованиях? • Достаточно ли важен поставленный исследованием вопрос с клинической точки зрения; имеются ли у общественности или лиц, принимающих решения, сомнения и «политическая» потребность в новых доказательствах, даже если с точки зрения науки они не являются строго необходимыми? 4.2. О ком говорится в исследовании? Одна из первых статей, которая когда-то попалась мне на глаза, называлась «Но поможет ли это моим пациентам с инфарктом миокарда?». Я не помню всех деталей статьи, но она открыла мне глаза на то, что исследование, проведенное на группе пациентов, может оказаться непригодным для моей практики. Основные причины, по которым пациенты (участники) в клиническом исследовании могут отличаться от пациентов в «реальной жизни»: • у них была большая или меньшая степень тяжести заболевания, чем у ваших пациентов; • они относились к другой этнической группе, или стиль их жизни отличался от такового ваших пациентов; • они получали более пристальное внимание во время исследования, чем то, которое вы можете уделить своим пациентам; • в отличие от обычных пациентов, у них не было других проблем со здоровьем, кроме изучаемого состояния; • никто из них не курил, не употреблял алкоголь и не принимал пе- роральные контрацептивы. Таким образом, до того, как «проглотить» результаты статьи, нужно задать себе следующие вопросы. 76 {
Как осуществлялся набор участников исследования? Если вы хотите провести анкетный опрос лиц, попавших в отделение неотложной помощи, вы можете набрать респондентов, поместив объявление в газете. Такой способ — хороший пример систематической ошибки вследствие отбора (recruitment bias), поскольку выборка, которую вы получите, окажется смещенной в сторону лиц с высокой мотивацией, которым нравится читать газеты. Лучше адресовать эту анкету всем людям (или каждому 10-му в этой группе), попавшим в отделение неотложной помощи в определенный день. Каких пациентов включали в исследование? В Великобритании во многих испытаниях исключают пациентов с сопутствующими заболеваниями, пациентов, не говорящих на английском языке, принимающих лекарственные препараты и необразованных лиц. Такой подход может быть «чистым» с научной точки зрения. Однако, учитывая, что результаты клинических испытаний применяются в более широкой выборке, он не безупречен с точки зрения логики3. Результаты исследований фармакокинетики новых препаратов на здоровых мужчинах в возрасте 23 лет очевидно нельзя применять к женщине пожилого возраста. Этот вопрос, который некоторое время отпугивал врачей4, с недавних пор был взят на вооружение самими пациентами. Это проявилось в предложениях со стороны групп поддержки пациентов расширить «критерии включения» пациентов в испытания лекарственных препаратов при СПИДе5. Каких пациентов исключали из исследования? РКИ, ограниченное пациентами с умеренными и тяжелыми формами заболевания, например сердечной недостаточности, может быть неприменимым Для лечения легких форм сердечной недостаточности. Это имеет важное практическое значение, когда результаты клинических испытаний, проведенных на госпитальных больных, используются для рекомендаций по лечению амбулаторных больных, у которых тяжесть заболеваний, как правило, меньше. Проводилось ли изучение пациентов в обстоятельствах «реальной жизни»? Например, поступали ли пациенты в стационар только для наблюдения? Объясняли ли им потенциальные преимущества вмешательства? Предоставлялся ли пациентам контактный телефон сотрудника, отвечающего за проведение исследования? Предоставляла ли компания—спонсор исследования Новое оборудование, недоступное обычному врачу? Эти факторы не обесце- 77
нивают результатов исследования, но они должны заронить сомнение относительно применимости его результатов по отношению к вашим пациентам. 4.3. Хорошо ли исследование спланировано? Сложная терминология дизайна научных исследований может отпугивать, хотя так называемая критическая оценка (critical appraisal) основывается на простом здравом смысле. Дизайн исследования я оцениваю при помощи двух вопросов. Какие вмешательства оценивались в исследовании и с чем их сравнивали? Это один из основополагающих вопросов при оценке статьи. Возникает соблазн сразу же принять на веру результаты исследования, но следует помнить, что авторы часто искажают (скорее подсознательно) представление о своей работе и переоценивают ее оригинальность и потенциальную значимость. В примерах (врезка 4.1) приведены гипотетические (чтобы никого не обижать) утверждения, но они построены на ошибках, часто встречающихся в научных статьях. Какие измерялись исходы и каким образом? Если вы страдаете неизлечимым заболеванием и некая фармацевтическая компания объявляет, что она производит новый чудо-препарат, вы сможете оценить его эффективность, если проживете, принимая этот препарат, дольше (конечно, если качество жизни того стоит, учитывая ваше состояние и побочные эффекты препарата). Наверное, вас мало интересует концентрация в крови сложного фермента, даже если вас уверяют, что это надежный показатель шансов на выживание. Использование подобных суррогатных конечных точек (исходов), или косвенных критериев оценки, обсуждается далее в разделе 6.3. Измерение симптоматических (например, боль), функциональных (например, подвижность), психологических (например, тревожность) или социальных (например, неудобство) эффектов вмешательства удручает еще большим количеством проблем. Методология развития, внедрения в практику, а также интерпретации таких «мягких» показателей исходов в этой книге не обсуждается. В целом вы всегда должны искать в статье доказательства того, что исходы измерялись объективными методами, что шкала тревожности или боли достоверно отражает измеряемый показатель и что объективные изменения данного исхода адекватно отражают изменения в 78
Врезка 4.1. Примеры ошибок в разделе «Методы» Что говорили авторы Мы измеряли, как часто врачи общей практики спрашивают пациентов о том, курят ли они Что им следовало сказать (или сделать) Мы просмотрели медицинские карты пациентов и подсчитали, в каком проценте случаев врачи регистрировали факт курения Объяснение ошибки Предположение, что медицинские карты в 100 % случаев точно отражают истинное положение вещей Мы измеряли, как врачи лечат Мы измеряли, что говорят врачи о Предположение, что вра- боль в нижней части спины своих действиях при приеме паци- чи говорят о том, что дей- ента с болью в нижней части спины ствительно делают Мы сравнивали никотиновый пластырь с плацебо Мы попросили 100 подростков принять участие в исследовании сексуальных отношений Мы рандомизировали пациентов в группу с планом индивидуального ухода и группу с «обычным» уходом Лдя оценки обучающей брошюры обследуемым экспериментальной группы мы предоставляли брошюру и контактный телефон для снятия вопросов. В контрольной группе мы не давали ни брошюры, ни телефона Мы измеряли эффективность витамина С для профилактики простуды Пациентов экспериментальной группы просили накладывать пластырь, содержащий 15 мг никотина, 2 раза в сутки; пациентам контрольной группы давали пластыри, которые выглядели идентично Мы обратились к 167 американским подросткам (европеоидам) в возрасте 12-18 лет (из них 85 мужского пола) в летнем лагере; 100 из них (31 мужского пола) согласились принять участие в исследовании Участникам экспериментальной группы предлагали индивидуальный план ухода, состоящий из...; пациентам контрольной группы предлагали... Если исследование направлено исключительно на оценку брошюры, представителей обеих групп следовало снабдить контактным телефоном Систематический обзор позволил бы обнаружить множество исследований на эту тему, проведенных в прошлом (см. раздел 8.1) Не указаны доза препарата или вид плацебо Неспособность привести достаточную информацию о субъектах (обратите внимание, что цифры в этом примере указывают на систематическую ошибку вследствие отбора по направлению к представительницам женского пола) Неспособность дать достаточную информацию о вмешательстве (информация должна быть достаточной для того, чтобы исследование могли повторить другие) Неспособность вести группы одинаково, за исключением специфического вмешательства Неоригинальное исследование
состоянии пациента. Следует помнить: то, что важно с точки зрения врача, может не представлять ценности для пациента, и наоборот. 4.4. Удалось ли в исследовании избежать систематических ошибок или минимизировать их? Эпидемиологи Джеффри Роуз (Geoffrey Rose) и Дэвид Баркер (David Barker) определяют систематическую ошибку как любой фактор, который влияет на выводы и искажает сравнительную оценку7. Независимо от дизайна исследования (РКИ, нерандомизированное сравнительное испытание, когортное исследование или исследование «случай—контроль»), группы должны быть идентичны, за исключением изучаемого параметра. Участники исследования должны получать одни и те же инструкции, иметь одинаковый контакт с медицинским персоналом и обследоваться одинаковое число раз с использованием одних и тех же показателей исходов. В различных по дизайну исследованиях следует принимать различные меры для снижения вероятности систематической ошибки. Рандомизированные контролируемые испытания При проведении РКИ систематической ошибки можно избежать (теоретически) путем отбора участников из определенной популяции и их случайного распределения по группам. В разделе 3.3 описаны ситуации, в которых систематическая ошибка может закрасться даже в этот «золотой стандарт» клинических испытаний; на рис. 4.1. обобщены некоторые примеры, на которые следует обратить особое внимание. Нерандомизированные контролируемые испытания Недавно я проводила семинар, на котором мои студенты докладывали результаты собственных научных исследований. Все исследования (кроме одного) были сравнительного, но нерандомизированного дизайна — пациенты из одной группы (например, амбулаторные пациенты с бронхиальной астмой) получали один вид вмешательства (например, образовательную брошюру), а участники другой группы (например, пациенты с бронхиальной астмой, посещающие хирургов) получали другой вид вмешательства (например, занимались на образовательных семинарах). Я была удивлена тем, что многие докладчики считали свое исследование рандомизированным и контролируемым. Эти достойные похвалы, преданные науке молодые исследователи-энтузиасты не обратили вни- 80
Исходная выборка Распределение Систематическая ошибка вследствие отбора (selection bias) — систематические различия в группах сравнения вследствие неполной рандомизации. Систематическая ошибка вследствие оказания ухода (performance bias) - систематические различия в проводимом уходе за пациентами, помимо оцениваемого вмешательства. Систематическая ошибка вследствие исключения, или смещение от исключения (exclusion bias) - систематические различия в результате «выпадения» пациентов из исследования. Систематическая ошибка, связанная с выявлением и подтверждением определенного клинического исхода (detection bias), — систематические различия в оценке исходов. Группа вмешательства Группа контроля Вмешательство проводится Вмешательство не проводится Дальнейшее ведение т Исходы Дальнейшее ведение Исходы Рис. 4.1. Источники систематических ошибок в РКИ, требующие проверки. 8
мания на наиболее очевидную систематическую ошибку: они сравнивали две группы, которые различались вследствие неправильного отбора пациентов еще до начала вмешательства (помимо других потенциальных источников систематических ошибок, перечисленных на рис. 4.1). Систематическая ошибка вследствие отбора (selection bias) — систематические различия в группах сравнения вследствие неполной рандомизации. Систематическая ошибка вследствие оказания ухода (performance bias) — систематические различия в проводимом уходе за пациентами, помимо оцениваемого вмешательства. Систематическая ошибка вследствие исключения, или смещение от исключения (exclusion bias) — систематические различия в результате «выпадения» пациентов из исследования. Систематическая ошибка, связанная с выявлением и подтверждением определенного клинического исхода (detection bias), — систематические различия в оценке исходов. В целом, если изучаемая статья описывает нерандомизированное клиническое испытание, вы должны, полагаясь на здравый смысл, решить вопрос, велики ли исходные различия между экспериментальной и контрольной группами настолько, что могут обесценить различия, относимые на счет эффектов вмешательства. Как правило, с этим приходится сталкиваться постоянно8,9. Иногда авторы таких статей перечисляют в таблице важные характеристики каждой группы (возраст, соотношение полов, показатели тяжести заболевания и т.д.), что позволяет вам самому оценить эти различия. Когортные исследования Отбор контрольной группы — одно из наиболее сложных мероприятий, которое должны осуществить исследователи при проведении наблюдательного (когортного или типа «случай—контроль») исследования. В очень малом количестве когортных исследований успешно отбираются две группы участников, однородных по возрасту, полу, социально-экономическому статусу, наличию сопутствующей патологии и т.д., с единственным отличием в воздействии изучаемого фактора. Обычно «контроль» при когортных исследованиях происходит на стадии анализа, когда для выравнивания исходных различий в переменных используют сложные статистические методы. Если это должным образом не сделано, статистические тесты вероятности и доверительные интервалы (см. раздел 5.5) могут ввести в опасное заблуждение10. 82
Эту проблему демонстрируют когортные исследования по изучению рисков и пользы от употребления алкоголя, показавшие «J-образную» связь между употреблением алкоголя и смертностью. Лучший исход (по показателям преждевременной смерти) отмечался в группе умеренно пьющих. Трезвенники со значительно большей вероятностью погибали в более молодом возрасте, чем обычный человек, потреблявший несколько порций алкоголя в сутки. Можем ли мы предположить, что трезвенники в среднем идентичны умеренно пьющим людям и отличаются только количеством употребляемого алкоголя? Конечно, нет. Как мы знаем, популяция трезвенников включает: людей, которые были вынуждены бросить пить по состоянию здоровья; тех, кто, помимо отказа от алкоголя, изменил диету и образ жизни в целом; определенные религиозные или этнические группы, которые в исследовании просто не были бы представлены (например, мусульмане); а также тех, кто пьет как рыба, но предпочитает об этом не распространяться. Детали того, как различные характеристики «трезвости» контролировались эпидемиологами, в этой книге не рассмотрены. В заключение следует отметить, что, даже допуская возможное наличие неучтенных факторов у лиц, считающих себя непьющими, у них сохраняется повышенный риск преждевременной смерти. Исследования «случай—контроль» В исследованиях «случай—контроль» (в которых, как я писала в разделе 3.7, ретроспективно анализируется состояние участников с заболеванием и без него для определения возможных причинных факторов) процессом, наиболее подверженным систематической ошибке, является не оценка исхода, а решение вопроса о том, когда участник становится «случаем». Вот один из примеров. Несколько лет назад был возбужден судебный процесс против производителей коклюшной вакцины, которых обвинили в неврологических осложнениях после вакцинации определенного числа Младенцев12. Чтобы ответить на вопрос, привело ли введение вакцины к повреждению мозга, провели исследование «случай—контроль», в кото- Ром в качестве «случаев» определяли прежде здоровых детей с припадка- Ми или другими признаками, позволяющими заподозрить повреждение Мозга (в течение 1 нед после введения вакцины). В качестве контроля выспали дети того же пола и возраста с тем же графиком прививок, у которых признаки поражения мозга могли развиться или не развиться. 83
Признаки, характерные для поражения мозга, у здоровых детей возникают крайне редко. Тем не менее они встречаются, и их взаимосвязь с недавно проведенной вакцинацией может быть случайной. Более того, повышенная озабоченность общественности могла привести к систематической ошибке вследствие ошибок памяти (recall bias) как родителей, так и работников здравоохранения: младенцев с неврологическими симптомами, развившимися до введения вакцины или некоторое время спустя, могли расценить как «случаи». Судья процесса установил, что неправильное отнесение 3 младенцев к «случаям» (а не к контрольным участникам) привело к переоценке вреда вследствие введения вакцины в 3 раза12. Позднее этот вывод был подвергнут сомнениям, но принцип остался тем же — чтобы избежать систематической ошибки, отнесение участников к «случаям» в исследовании «случай—контроль» должно проводиться тщательно и на основе объективных критериев. 4.5. Была ли оценка «слепой»? Даже тщательное формирование контрольной группы может быть напрасным, если исследователи, оценивающие исходы (например, делающие вывод о наличии у пациента сердечной недостаточности, улучшении на рентгенограммах в динамике и т.д.), знают, к какой группе относится пациент. Если вы полагаете, что интерпретация клинических признаков и диагностических тестов, таких как ЭКГ или рентгенография, на 100% объективна, значит у вас еще мало опыта. В главе «Клиническое обследование» из книги «Клиническая эпидемиология — основная наука клинической медицины» Д. Саккет и со- авт. доказывают: при обследовании пациентов врачи обнаруживают то, что ожидают или надеются найти. На самом деле двум врачам обычно не удается достичь согласия по результату объективного обследования или интерпретации диагностического теста чаще чем в 2/3 случаев. Степень согласия между двумя врачами (исключая случайные совпадения) может быть выражена математически в виде показателя к (каппа); показатель 1,0 означает абсолютное (100%) согласие. Значения к для специалистов, оценивающих давление в яремных венах, стадию диабетической ретинопатии по снимкам глазного дна, результаты маммографии, составляют соответственно 0,42, 0,55 и 0,6713. Примеры несогласия врачей друг с другом должны убедить вас, что «ослеплять» (чтобы не обижать лиц с нарушением зрения, можно использовать термин «скрывать») исследователей, производящих оценку 84
и распределение пациентов по группам, отнюдь нелишне. Например, если я знаю, что пациента отнесли к группе, получающей антигипертензив- ный препарат, а не плацебо, я с большей вероятностью буду перепроверять у него АД, когда этот показатель необычайно высок. Это пример систематической ошибки вследствие оказания ухода {performance bias). Ошибки, характерные для «неослепленного» исследователя, указаны на рис. 4.1. Прекрасный пример избежания систематических ошибок путем адекватного «ослепления» был приведен несколько лет назад в журнале «Lancet» 14. Маджид (Majeed) и соавт. провели РКИ, показавшее, в отличие от результатов предыдущих исследований, что время выздоровления (койко-дни, количество дней временной нетрудоспособности, время для восстановления полной активности) после лапароскопического удаления желчного пузыря не отличается от времени выздоровления после традиционной «открытой» операции. Несоответствие между этим и предыдущими исследованиями могло быть обусловлено усилиями Маджида и его коллег по уменьшению вероятности систематической ошибки (см. рис. 4.1). Рандомизацию пациентов проводили только после введения наркоза. Ни пациенты, ни исследователи не знали, какая проводилась операция: все пациенты покидали операционную с одинаковыми повязками (сплошь в кровавых пятнах!). Эти результаты заставили авторов предыдущих исследований спросить себя, не способствовала ли быстрой выписке пациентов из лапароскопической группы домой систематическая ошибка вследствие «ожидания» (см. раздел 7.3), а не скорое выздоровление. 4.6. Задавались ли предварительные статистические вопросы? Я не являюсь профессиональным статистиком и в разделе «Методы» меня интересуют только 3 цифры: 1. Размер выборки. 2. Продолжительность наблюдения. 3. Полнота наблюдения. Размер выборки Перед началом клинического испытания важно определить размер выборки («мощность»). Испытание должно быть достаточно большим, чтобы с высокой вероятностью определить эффект (если он есть) как 85
статистически значимый и быть уверенным в действительном отсутствии пользы, если она при проведении испытания не обнаружена15. Для того чтобы подсчитать размер выборки, врач должен решить 2 вопроса. • Какое различие между двумя группами составляет клинически значимый эффект. Этот эффект может отличаться от статистически значимого эффекта. Например, вы назначаете новый препарат, снижающий АД на 10 мм рт. ст.; эффект - статистически значимое снижение вероятности развития инсульта (т.е. шансы, что снижение вероятности произошло случайно, равны менее 1/20)16. Но если у людей, которым назначен новый препарат, АД повышено незначительно, а другие важные факторы риска инсульта отсутствуют (т.е. пациенты молоды, не страдают сахарным диабетом, имеют нормальную концентрацию холестерина в сыворотке-крови и т.д.), то это отличие позволяет предотвратить только 1 случай инсульта на 850 пациентов, принимающих препарат17, — такую клиническую разницу в риске многие пациенты расценивают как незначительную, считая, что препарат принимать не стоит. • Каковы значения средней и стандартного отклонения показателя основного исхода. Предположим, что оцениваемый исход представляет собой событие (например, гистерэктомия), а не количественный признак (например, уровень АД). В этом случае необходим показатель доли людей в популяции, с которыми произошло событие, и оценка того, какое изменение этого показателя считать клинически значимым. Как только эти данные получены, можно легко подсчитать минимально необходимый размер выборки, используя стандартные формулы, номограммы и таблицы, которые можно получить в статьях15,18, учебниках19 или статистических программах20. Таким образом, исследователи до начала испытания могут выяснить, насколько большая выборка им потребуется для того, чтобы с умеренной, высокой или очень высокой вероятностью определить истинное различие между группами. Правдоподобие определения истинной разницы известно как мощность исследования. В исследованиях часто оговаривают, что «мощность» должна быть в пределах от 80 до 90%. При чтении статьи о РКИ вы должны найти примерно такое предложение (взято из статьи Мадокида и его коллег, о которой говорилось выше): «Для 90% вероятности выявления разницы пребывания в больнице в одну ночь, используя U-тест Манна—Уитни (см. табл. 5-1 в главе 5), в каждую группу необходимо на- 86
брать 100 пациентов (предполагая стандартное отклонение в 2 ночи). Это обеспечит мощность более 90% для определения разницы в продолжительности операции в 15 мин, предполагая, что стандартное отклонение составляет 20 мин»14. Если в статье, которую вы читаете, не говорится о подсчете размера выборки, и выявляется, что разницы между экспериментальной и контрольной группами нет, вы должны проделать вычисления самостоятельно на основе вышеприведенной информации (или непосредственно запросить ее у авторов). Исследования с недостаточной «мощностью» в медицинской литературе встречаются часто. Обычно это связано с тем, что авторам гораздо труднее набрать участников исследования, чем они предполагали. Такие исследования обычно приводят к ошибке II типа (или р), т.е. к ошибочному заключению, что вмешательство неэффективно (ложноотрица- тельный результат). И наоборот, реже встречается ошибка I типа (или а) — вывод о том, что существует значительная разница между группами, когда ее в действительности нет (причина заключается в неправильном отборе пациентов, ложноположительный результат). Длительность наблюдения Даже если размер выборки определен правильно, для того чтобы эффект вмешательства отразился на показателе исхода, исследование должно быть продолжительным. Например, исследование по влиянию нового анальгетика на интенсивность болей в послеоперационном периоде требует как минимум 48 ч. Длительность наблюдения при исследовании влияния пищевых добавок, назначаемых в дошкольные годы, на рост человека во взрослом периоде должна измеряться десятилетиями. Даже если вмешательство показало значительное различие между группами, например через 6 мес после его проведения, это различие может быть неустойчивым. Многие диетологи из своего горького опыта знают, что различные подходы к снижению массы тела у лиц с ожирением часто оказываются высокоэффективными на сроках 2—3 нед. Но, если наблюдение продолжать в течение года и более, у большинства лиц с °жирением снова отмечается увеличение массы тела. Полнота наблюдения Многократно показано, что участники, «выпавшие» из исследования, с меньшей вероятностью принимают назначенные им препараты, с большей вероятностью пропускают осмотры и чаще страдают от побочных эФфектов лекарственных средств, чем участники, оставшиеся в исследовании13. Участники, отказавшиеся от заполнения анкеты, испытывают 87
иные чувства по поводу вмешательства (вероятно, более слабые), чем те, кто заполнил и отправил анкету по почте. Люди, отобранные для программы по снижению массы тела, с большей вероятностью будут участвовать в ней, если масса тела у них действительно снижается. Причины «выпадения» пациентов из клинических испытаний • Неправильное включение пациентов в испытание (т.е. во время испытания исследователь обнаруживает, что пациента не следовало подвергать рандомизации, поскольку он не удовлетворяет критериям «включения»). • Подозрение на побочный эффект от приема экспериментального лекарственного препарата. Обратите внимание, что частоту побочных эффектов в экспериментальной группе никогда не следует рассматривать без сравнения с частотой в контрольной группе. Плацебо на удивление часто вызывает сыпь! • Снижение мотивации у пациента («Я не хочу больше принимать эти таблетки»). • Исключение пациента врачом по клиническим показаниям (например, сопутствующее заболевание или беременность). • Невозможность последующего наблюдения (например, пациент изменил место жительства). • Смерть. Умершие пациенты не придут на запланированную встречу с врачом; если они не были учтены отдельно, их могут неправильно отнести к группе «выпавших» пациентов. Это одна из причин, по которой исследования с низкой полнотой наблюдения (скажем, менее 70% участников) обычно считаются недостоверными. Если игнорировать всех, кто «выпал» из исследования, это приведет к смещению результатов, обычно в пользу экспериментальной группы. Поэтому результаты сравнительных исследований следует анализировать на основе «намерения лечить» {intention to treat analysis)21. Это означает, что все данные о пациентах, исходно отнесенных к экспериментальной группе, должны анализироваться вместе. В этой экспериментальной группе окажутся пациенты, строго придерживавшиеся протокола исследования на всем его протяжении, но также и те, кто «выпал» из исследования до его завершения, кто не принимал таблеток, даже те, кто по разным причинам получал вместо экспериментального вмешательства контрольное. И наоборот, данные «выпавших» пациентов из контрольной группы должны анализироваться вместе с данными о пациентах, действительно принимавших плацебо. Если читать статью внимательно, обычно можно об- 88
наружить фразу: «Результаты анализировались на основе намерения лечить», однако вам следует это проверить. Бывают ситуации, когда анализ исходя из «намерения лечить» обоснованно не используют. Наиболее распространен анализ эффективности (efficacy analysis), который призван объяснить эффекты самого вмешательства и поэтому лечения, получаемого в действительности. Если участники исследования при анализе эффективности являются частью РКИ, для успешного анализа их можно рассматривать как часть когорт - ного исследования (см. раздел 3.4). 4.7. Выводы Изучив раздел «Методы» научной публикации, вы должны четко представлять, какой тип исследования был применен, сколько пациентов участвовало в исследовании, как отбирали пациентов, какое оценивали лечение или другое вмешательство, какова была длительность наблюдения и какие использовались показатели исхода. Вы также должны установить, при помощи каких статистических тестов обрабатывались результаты и использовались ли они вообще (см. главу 5). Если до прочтения оставшейся части статьи вы смогли получить ответы на эти вопросы, вы сможете понять и интерпретировать результаты и, возможно, отвергнуть их. Вы должны понимать нижеприведенные описания. «Эта статья описывает неслепое рандомизированное испытание, в котором у 267 пациентов дневного стационара в возрасте от 58 до 93 лет эффективность четырехслойной компрессионной повязки сравнивали со стандартной однослойной повязкой при лечении неосложненных венозных язв нижних конечностей. Период наблюдения составил 6 мес. Процент заживления язв измеряли от исходной площади поверхности с мониторингом раневой поверхности участковой медсестрой и подсчетом компьютерным сканирующим устройством. Результаты анализировали с использованием парного теста Вилкоксона». «Это анкетное исследование 963 случайно отобранных в Великобритании врачей общей практики. В анкете врачей спрашивали, когда они закончили медицинскую школу, и просили указать, каков уровень АД, при котором они обычно начинают лечить эссенци- альную гипертензию. В структурированной анкете предлагались варианты ответов: «90— 99 мм рт.ст.», «100—109 мм рт.ст.» и «110 мм рт.ст. или выше». Результаты анализировали при помощи теста х2 в таблице формата 3x2, чтобы определить, зависит ли порог начала лечения эссенциальной гипертензии от года окончания врачом медицинской школы (до 1975 г. или позднее)». «Это сообщение о случае с подозрением на фатальный побочный эффект нового снотворного препарата Слипол у одного пациента». 89
Приобретя небольшой опыт в изучении раздела «Методы» научных статей, вы обнаружите, что это лишь первый шаг к использованию проверочных листов (Приложение 1) и подробного «Руководства для чтения медицинской литературы», на которое я ссылалась в главе 3. Ко многим позициям, обсуждаемым в этой главе, я вернусь в главе 6 («Испытания лекарственных средств»). Литература 1. Mitchell J.R. But will it help my patients with myocardial infarction? // BMJ. - 1982. - Vol. 285. - R 1140-1148. 2. IWhat I want from medical researchers when I am a patient // Ibid. - 1997. - Vol. 310. - P. 1315-1318. 3. Bero LA., Rennie D. Influences on the quality of published drug studies // Int. J. Technol. Assess. Health Care. - 1996. - Vol. 12. - R 209-237. 4. Buyse M.E. The case for loose inclusion criteria in clinical trials // Acta Chirurg. Belg. - 1990. - Vol. 90. - P. 129-131. 5. Phillips A.N., Davey Smith G., Johnson MA. Will we ever know how to treat HIV infection? // BMJ. - 1996. - Vol. 313. - P. 608-610. 6. Dunning M., Needham G. But will it work doctor? Report of conference held in Northampton, 22nd and 23rd May 1996. — London: King's Fund, 1996. 7. Rose G., Barker D.J.P. Epidemiology for the Uninitiated. - 3rd ed. - Lond.: BMJ Publications, 1994. 8. Chalmers Т.О., Celano P., Sacks H.S., Smith H. Bias in treatment assignment in controlled clinical trials // N. Engl. J. Med. — 1983. - Vol. 309. -P. 1358-1361. 9. Colditz G.A., Miller J A., MostellerJ.F. How study design affects outcome in comparisons of therapy. I: Medical // Stat. Med. - 1989. — Vol. 8. - R 441-454. 10. Brennan P., Croft P. Interpreting the results of observational research: chance is not such a fine thing// BMJ. - 1994. - Vol. 309. - P. 727-730. 11. Maclure M. Demonstration of deductive meta-analysis: alcohol intake and risk of myocardial infarction // Epidemiol. Rev. — 1993. — Vol. 15. - P. 328-351. 12. Bowie С Lessons from the pertussis vaccine trial // Lancet. — 1990. — Vol. 335. - R 397-399. 13. Sackett D.L., Haynes R.B., Guyatt G.H., Tugwell P. Clinical Epidemiology — a Basic Science for Clinical Medicine. — Lond.: Little, Brown, 1991. 90
W.Majeed A.W., TroyG., NichollJ.P. et al. Randomized, prospective, single-blind comparison of laparoscopic versus small-incision cholecystectomy// Lancet. - 1996. - Vol. 347. - P. 989-994. 15. Altman D. Practical Statistics or Medical Research. — Lond.: Chapman and Hall, 1991. The nomogram for calculating sample size or power is on page 456. 16. Medical Research Council Working Party. MRC trial of mild hypertension: principal results // BMJ. - 1985. - Vol. 291. - P. 97-104. 17. MacMahonS., Rogers A. The effects of antihypertensive treatment on vascular disease: re-appraisal of the evidence in 1993 // J. Vase. Med. Biol. - 1993. - Vol. 4. - P. 265-271. 18. CampbellMJ., JuliousS.A., Altman D.G. Estimating sample size for binary, ordered categorical, and continuous outcomes in two group comparisons // BMJ. - 1995. - Vol. 311. - P. 1145-1148. 19. Machin D., CampbellM.J., Payers P.M., PinolA.P.Y. Sample Size Tables for Clinical Studies. — 2nd ed. — Lond.: Blackwell Science, 1997. 20. Iwane M., Panesky J., Plante K. A user's review of commercial sample size software for design of biomedical studies using survival data // Control. Clin. Trials. - 1997. - Vol. 18. - P. 65-83. 21. Stewart L.A., Parmar M.KB. Bias in the analysis and reporting of randomized controlled trials // Int. J. Technol. Assess. Health Care. — 1996. — Vol. 12.-P. 264-275. 91
Глава 5 Статистика для неспециалиста 5.1. Как нестатистики могут оценивать статистические тесты? В этом веке, когда медицина все больше полагается на математику, ни один клиницист не может позволить себе оставить статистические аспекты работы полностью «экспертам». Если, подобно мне, вы не считаете себя вычислителем, помните, что вам не надо уметь создавать машину, чтобы водить ее. Что вы должны знать о статистических тестах (критериях), так это то, какой тест лучше всего использовать для типичных проблем. Вам нужно уметь описывать словами, что делает тест и в каких обстоятельствах он становится ненадежным или неподходящим. Врезка 5.1 содержит некоторые часто используемые «хитрые уловки», к которым мы все должны сохранять бдительность (как в нашей работе, так и в практике других людей). Я обнаружила, что один из самых легких способов произвести впечатление на коллег — отпустить замечание вроде: «Ах, я вижу, эти авторы выполнили односторонний /^-критерий. Мне кажется, что двусторонний критерий был бы более подходящим в этих обстоятельствах». Как вы увидите ниже, не нужно уметь выполнять /^критерий, чтобы высказывать такие замечания, но нужно понимать, что означают стороны этого критерия. Контрольный список вопросов в Приложении 1, подробно объясняемый ниже, представляет мой собственный метод для оценки адекватности статистического анализа, который читатели, возможно, сочтут слишком упрощенным. Если вы так считаете, то пропустите этот раздел и обратитесь либо к более развернутым представлениям для нестатистика, например к серии «Основы статистики для клиницистов» в «Журнале Канадской медицинской ассоциации»4, либо к другому статистическому учебнику5. Если вы находите статистику невозможно трудной, возьмите эти пункты по одному 92
Врезка 5.1. 10 способов схитрить с помощью статистических тестов при подробном описании результатов 1. Обработайте все ваши данные на компьютере и сообщите как значимую любую связь, где р<0,05 (см. раздел 5.5а). 2. Если исходные различия между группами благоприятствуют группе вмешательства, помните, что вам не стоит делать поправку на эти различия (см. раздел 5.2а). 3. Не проверяйте ваши данные, чтобы установить, нормально ли они распределены. Если вы это сделаете, вы можете завязнуть с непараметрическими тестами, которые не слишком легки (см. раздел 5.26). 4. Игнорируйте все «удаления» («отсеивания») и пациентов без полных данных, потому что анализ касается только пациентов, которые полностью прошли лечение (см. раздел 4.6в). 5. Всегда предполагайте, что вы можете соотнести один набор данных с другим и подсчитать «значение г» (коэффициент корреляции Пирсона) (см. раздел 5.4а) и что значимая величина г доказывает причинность (см. раздел 5.46). 6. Если «аномальные выбросы» (точки, которые находятся далеко от других на вашем графике) искажают ваши расчеты, просто удалите их. Однако если «выбросы» помогают вашему выводу, даже если они сомнительны, оставьте их (см. раздел 5.3в). 7. Если доверительный интервал вашего результата содержит нулевое различие между группами, оставьте его вне вашего сообщения. Еще лучше, упомяните его коротко в тексте, но не рисуйте его на графике и игнорируйте при формулировании выводов (см. раздел 5.56). 8. Если различия между двумя группами становятся значимыми спустя 4,5 мес в испытании, запланированном на 6 мес, остановите испытание и начните подробное описание. В качестве альтернативы если на 6-й месяц результаты «еще незначимы», продлите испытание еще на 3 нед(см. раздел 5.2г). 9. Если ваши окончательные результаты оказываются неинтересными, вернитесь назад и посмотрите, не вели ли себя по-другому какие-нибудь особые подгруппы. Например, вы можете обнаружить, что ваше вмешательство дало в конце концов положительный эффект у китаянок в возрасте 52—61 года (см. раздел 5.2г).* 10. Если анализ ваших данных способом, которым вы планировали проводить этот анализ, не дает результата, которого вы ожидали, «прогоните» ваши данные через другие критерии (см. раздел 5.2в). * Эта же мысль в сборнике «Физики продолжают шутить» (М.: Мир, 1968, 319 с.) выражена в статье «О вреде огурцов» несколько иначе: «Единственный способ избежать вредного действия огурцов — изменить диету. Ешьте, например, суп из болотных орхидей. От него, насколько нам известно, еще никто не умирал». 93
и обратитесь к чтению следующего пункта только, когда вы согласитесь с предыдущими пунктами. Ни один пункт не предполагает подробного знания описываемых вычислений. Первый вопрос, который нужно задать: «Использовали ли авторы вообще какие-либо статистические критерии?» Если они представляют цифры и притязают на то, что эти цифры что-то означают без использования статистических методов, они определенно ходят по тонкому льду. 5.2. Корректно ли авторы выбрали схему исследования? Они определили сопоставимость их группы и при необходимости учли исходные различия? Большинство сравнительных клинических испытаний включают таблицу или параграф в тексте, показывающий исходные характеристики изучаемых групп. Такая таблица должна демонстрировать, что как группа вмешательства, так и контрольная группа однородны по возрасту и полу, а также по ключевым прогностическим переменным (например, по среднему размеру раковой опухоли). Значимое различие в таких исходных характеристиках, даже случайное, может сделать сомнительной интерпретацию результатов. В этой ситуации можно применить статистическую коррекцию, чтобы попытаться устранить эти различия и усилить ваши аргументы. О такой адаптации см. раздел по этой теме в книге Дугласа Альтмана «Практическая статистика для медицинского исследования»6. Какой тип имеют данные и использованы ли соответствующие им статистические критерии? Числа часто используют для обозначения свойств вещей. Мы можем обозначить числом нашу массу тела, рост и т.д. Для измерения таких признаков можно использовать действительные числа. Можно, например, подсчитать среднюю массу тела и средний рост группы людей усреднением измерений. Однако если использовать числа для отражения свойства «место рождения», то 1 будет Лондон, 2 — Манчестер, 3 — Бирмингем и т.д. Можно подсчитать среднее чисел для таких признаков, но абсолютно нельзя интерпретировать результат такого усреднения. То же получите, если кодировать признак «обладать неким свойством X» с «1 — полное отсутствие», «2 — в небольшой степени», и «3 — сильно выражено». Если подсчитать «среднюю выраженность свойства X», то числовой результат 94
не удастся интерпретировать, пока мы не узнаем, что различие между «полным отсутствием» и «в небольшой степени» точно такое же, как различие между «в небольшой степени» и «сильно выражено». Все статистические тесты являются либо параметрическими (т.е. предполагают, что данные соответствуют определенному типу распределения, например нормальному), либо непараметрическими (т.е. они не предполагают, что данные соответствуют определенному типу распределения). В общем параметрические тесты являются более мощными, чем непараметрические, и поэтому должны использоваться в тех случаях когда это допустимо. Непараметрические тесты ориентированы на ранговый порядок значений (какое самое маленькое, какое идет далее и т.д.), но игнорируют абсолютные разности между этими значениями. Как вы понимаете, статистическую значимость труднее воспринимать, работая с непараметрическими тестами, и это соблазняет исследователей использовать такие статистики, как коэффициент корреляции г (см. раздел 5.4), некорректным образом. Не только легче подсчитать параметрический коэффициент корреляции г, чем эквивалентный ему непараметрический коэффициент Спир- мена, он также дает более зримые результаты. К сожалению, он дает также в целом и более сомнительную и вводящую в заблуждение оценку значимости этого результата, если тип данных не отвечает используемому тесту. Примеры параметрических тестов и их непараметрических аналогов (если они есть) даются в табл. 5.1. Другое соображение — это форма распределения, из которого были извлечены данные. Когда я училась в школе, мой класс вычерчивал кривые веса полученных карманных денег относительно числа детей, получающих эту сумму. Результаты формировали гистограмму той же самой формы, как рис. 5.1 — «нормальное распределение» (термин «нормальное» относится к форме графика и используется потому, что многие биологические явления демонстрируют эту модель распределения). Некоторые биологические переменные, такие, как масса тела, имеют скошенное распределение, как показано на рис. 5.2. (Рис. 5.2 в действительности показывает отрицательную асимметрию, тогда как масса тела имеет распределение с положительной асимметрией. Средняя масса тела взрослого мужчины Равна 70 кг, существуют люди с массой тела 140 кг, но никто не весит меньше нуля, поэтому график может не быть симметричным.) Такие ненормальные (скошенные) данные можно иногда трансформировать, чтобы получить симметричный график, например логарифмированием такой переменной или выполнением какой-то другой математической трансфор- 95
Таблица 5.1. Некоторые часто используемые статистические критерии (тесты) Параметрический критерий 1 1 Две независимые выборки (непарный) t- критерий Две зависимые выборки (парный t- критерий) Однофакторный дисперсионный анализ, использующий общую сумму квадратов (например, F-критерий Фишера) Двухфакторный дисперсионный анализ Параметрический аналог отсутствует Параметрический аналог отсутствует Непараметрический аналог критерия 2 tZ-тест Манна- Уитни** Тест Вилкоксона Дисперсионный анализ рангов (например, тест Краскела-Валлиса) Двусторонний анализ расхождения по рангу Х2-критерий Тест Макнемара Назначение критерия 3 Сравнивает две независимые выборки Сравнивает наблюдения за одними и теми же образцами (проверяет гипотезу, что среднее различие между двумя измерениями равно нулю) Обобщение парного /-критерия или критерия Вилкоксона, где 3 выборки наблюдений или более делаются на одном образце То же, что и выше, но тестирует влияние (и взаимодействие) двух различных факторов Проверяет нулевую гипотезу, что пропорции переменных, изменяющихся на двух уровнях (или более), независимы от второй переменной Проверяет значимость изменения соотношения частот двух зависимых распределений дискретных данных Пример | 4 Сравнение роста | девочек и роста мальчиков Сравнение массы тела младенцев до и после еды Чтобы определить, 1 выше ли уровень глюкозы в плазме крови через 1; 2 или 3 ч после приема пищи В примере выше, чтобы определить, различаются ли эти результаты у мужчин и женщин Чтобы оценить, 1 имеет ли большую вероятность поступления в медицинский вуз заявитель родом из Англии, нежели из других стран Чтобы сравнить 1 чувствительность и специфичность двух различных диагностических тестов при их применении к одному и тому же образцу_| ** С большим основанием непараметрическим аналогом /-критерия Стьюдента, нежели критерий Манна—Уитни, по праву считается ^-критерий Ван дер Вардена, который более эффективен, чем критерий Манна—Уитни. 96
Таблица 5.1. Окончание. Г 1 [^Коэффициент корреляции Пирсона г [Регрессия методом наименьших квадратов Множественная регрессия методом наименьших квадратов 2 Коэффициент корреляции рангов Спирмена Непараметрический аналог отсутствует*** Непараметрический аналог отсутствует* * * * 3 Оценивает силу линейной взаимозависимости между двумя количественными переменными Описывает численную связь между двумя количественными переменными, позволяя предсказывать одну переменную через значение другой Описывает численную связь между зависимой переменной и несколькими независимыми, предсказывающими переменными (предикторами) 4 Чтобы оценить, связан ли и в какой степени уровень HbAl с уровнем триглицеридов в плазме крови у больных диабетом . Чтобы посмотреть, как изменяется максимальный объем выдоха в зависимости от массы тела Чтобы определить, 1 влияют ли и до какой степени возраст человека, содержание жиров и натрия на артериальное давление *** Не вполне корректное утверждение. Анализ регрессионных и факторных моделей знаковыми методами описан в книге «Знаковый статистический анализ линейных моделей», авторы М.В. Болдин, Г.И. Симонова, Ю.Н. Тюрин (см. http://statsoft.msu.ru/sign.htm) и реализован в пакете SIGN. **** Не вполне корректное утверждение. Непараметрическим аналогом множественной регрессии можно считать, например, логистическую регрессию с двумя градациями зависимого признака и более. мации (извлечение квадратного корня или обратная дробь). Некоторые Данные, однако, не могут быть трансформированы в гладкие модели распределения, и важность этого обсулдается ниже. Дальнейшая очень интересная дискуссия о нормальном распределении приведена в главе 7 книги Мартина Блэнда «Введение в медицинскую статистику»7. Решение, нормально ли распределены данные, не является умозрительным академическим упражнением, так как оно определит, какой тип статистических критериев использовать. Например, линейная регрессия 97
Рис. 5.1. Пример нормальной (симметричной) кривой. Ю lO CD Рис. 5.2. Пример асимметричной (скошенной) кривой. 98
(см. раздел 5.4) даст вводящие в заблуждение результаты, если точки на графике рассеяния (корреляционное поле) не образуют особого распределения на линии регрессии, т.е. остатки, равные разности фактического и предсказанного значений признака (расстояние каждой точки до линии регрессии), должны быть нормально распределенными. Преобразование исходных данных, чтобы достичь такого нормального распределения (если это достижимо), не является недопустимым, оно призвано. обеспечить оценку соответствующего вклада в общий эффект. Исполь-i зование критериев, основанных на нормальном распределении, для ана^ лиза ненормально распределенных данных, представляет собой факта* ческий обман. Если в статье статистические критерии не описаны ясно, то почему авторы выбрали именно их применение и есть ли рекомендации для этих критериев? Иногда кажется, что есть бесконечное число всевозможных статистических критериев. В действительности большинство статистиков используют около дюжины таких критериев. Остальные не столь важны и применяются в особых случаях. Если работа, которую вы читаете, является описанием стандартного набора данных, которые были собраны также стандартным образом, но при этом используется малоизвестный статистический критерий, который и не упоминается в базовых учебниках статистики, у вас должно возникнуть подозрение. Авторам в таких ситуациях следует изложить, почему они использовали именно этот критерий, и дать ссылку (с номерами страниц) на его обстоятельное описание. Анализировались ли данные в соответствии с оригинальным протоколом исследования? Даже если вы не интересуетесь статистическими аргументами, здравый смысл должен подсказать вам, почему пункты 8 и 9 из Врезки 5.1 есть путь серьезного обмана. При достаточно длительным исследовании вы неизбежно обнаружите категорию больных, которые особенно хороши или плохи для ваших выводов. В конце концов вы найдете подгруппу сильным различием, хотя оно может быть и случайным. Подобным образом, если вы играете, подбрасывая монету, не имеет значения, как далеко она упадет, настанет время, когда вы будете в выигрыше. Большинство людей прекратили бы игру, если бы у нее не было справедливых правил. То же происходит с исследованием. Если вы счи- 99
таете неизбежным, что получите заведомо положительный результат, вы также неизбежно введете в заблуждение себя (и других) относительно справедливости вашего случая8. Преждевременное прекращение испытания (вмешательства) по этическим причинам, когда состояние пациентов особенно плохо, является другим случаем и обсуждается в другом месте8. Возвращение назад и тщательный подбор среди всех данных «интересных результатов» (ретроспективный анализ подгруппы или, проще, отсеивание данных) могут привести к неправильным выводам9. В одном раннем исследовании по профилактическому использованию аспирина у пациентов с предрасположенностью к инсульту отмечен значительный эффект для представителей обоего пола, но подобный ретроспективный анализ подгруппы показал, что эффект был ограничен только мужчинами10. В результате аспирин исключили из схемы профилактики у женщин намного лет, пока результаты других исследований (включая большой мета- анализ) не показали, что эффект этой подгруппы был ложным. Этот и другие примеры приведены в работе А. Оксмана (A. Oxman) и Г. Гайата (G. Guyatt) «Руководство пользователя по анализу подгрупп», в которой приведен полезный контрольный лист для проверки вывода, являются ли действительными видимые различия подгрупп12. 5.3. Парные данные, стороны («хвосты») и аномальные выбросы Действительно ли парные тесты выполнялись по парным (связанным) данным? Студенты часто затрудняются в решении, использовать ли парный или непарный статистический критерий для анализа своих данных. В действительности здесь нет большой тайны. Если вы измеряете что-то дважды у каждого субъекта (например, артериальное давление в положении лежа и стоя), вы, вероятно, интересуетесь не просто средней разницей артериального давления в положении лежа и в положении стоя по всей выборке, но и тем, насколько артериальное давление каждого субъекта изменяется вместе с изменением положения тела. В этой ситуации вы имеете то, что называется «парными» данными, так как каждое более раннее измерение сопоставляется с более поздним измерением. В этом примере один и тот же человек участвует в обоих наблюдениях, которые и дают нам пару величин, но есть другие ситуации (например, два 100
измерения занятости койки, сделанные в одном и том же отделении больницы). В этих ситуациях весьма вероятно, что два набора значений будут значимо коррелировать (например, мое артериальное давление на следующей неделе, вероятно, ближе к моему артериальному давлению на прошлой неделе, чем к артериальному давлению случайно выбранного взрослого человека на прошлой неделе). Иными словами, мы ожидали бы, что два случайно отобранных «парных» значения ближе друг к другу, чем два случайно выбранных «непарных» значения. Пока мы не уверены в допустимости использования соответствующих «парных» критериев в анализе выборок, остаемся с предубежденной оценкой значимости наших результатов. Был ли использован двусторонний критерий, когда эффект вмешательства в принципе ожидался отрицательным? Концепция двустороннего критерия (использующего два «хвоста» распределения) всегда заставляет меня думать о дьяволах или змеях, что, вероятно, отражает мое отношение к статистике. В действительности термин «хвост» относится к крайним значениям распределения — темные участки слева и справа на рис. 5.1. Предположим, что график представляет диастолическое артериальное давление группы людей, в которой случайно выбранные пациенты соблюдали диету с низким содержанием натрия. Если диета с низким содержанием натрия имеет значимое понижающее влияние на артериальное давление, то последующие измерения артериального давления у этих пациентов с большей вероятностью находились бы в пределах левого «хвоста» графика. Следовательно, мы должны анализировать данные с помощью таких статистических критериев, чтобы независимо обнаруживать необыкновенно низкий уровень в этих наблюдениях, которые могут возникнуть и случайно. Однако, на каком основании мы можем предположить, что диета с низким содержанием натрия должна только снижать артериальное давление, но никогда не смогла бы его повысить? Если даже есть определенные физиологические причины, почему это произойдет в данном конкретном примере, нельзя предполагать, что вы действительно знаете направление эффекта, которое даст ваше вмешательство. Новое лекарство, призванное облегчить тошноту, в действительности способно обострить ее, а санитарно-просветительная листовка, предназначенная для Уменьшения тревоги, может ее повысить. Статистический анализ должен, вообще говоря, проверять гипотезы о том, что повышение либо снижение артериального давления в вашем наборе данных произошло случайно. На языке статистиков это означает, что вам нужен двусторон- 101
ний критерий, пока вы не имеете весьма убедительных фактов, что различие идет только в одном направлении. Анализировались ли «аномальные наблюдения» как обычно, так и с соответствующими статистическими коррективами? Неожиданные результаты могут отражать повышенную чувствительность пациента (например, необычный метаболизм), ошибки в измерении (например, неисправное оборудование), ошибки в интерпретации (например, неправильное считывание показания измерительного прибора) или ошибки в подсчете (например, неправильно размещенная точка десятичной дроби). Только первый из этих случаев является «реальным» результатом и заслуживает включения в анализ. Возможно, хотя и с гораздо меньшей вероятностью, что результат, расположенный на много порядков вдали от других, является истинным. Несколько лет назад при подготовке проекта исследования я измеряла множество уровней различных гормонов примерно у 30 пациентов. Уровни гормона роста у одного пациента были в 100 раз выше, чем у других пациентов. Я предположила, что это была ошибка записи, поэтому сдвинула точку десятичной дроби на две цифры влево. Через несколько недель я встретила специалиста, который проводил анализ образцов, и он спросил меня: «Что случилось с тем парнем с акромегалией?». Статистическая коррекция «аномальных выбросов» (например, модифицирование для учета их влияния в общем результате) является довольно утонченным статистическим маневром. Если вам это интересно, обратитесь к соответствующему разделу в книге Дугласа Альтмана13. 5.4. Корреляция, регрессия и причинность Различает ли автор корреляцию и регрессию и был ли правильно подсчитан и интерпретирован коэффициент корреляции (значение г) ? Для многих нестатистиков, термины «корреляция» и «регрессия» синонимичны и смутно связаны с образом графика рассеяния с точками, распределенными вдоль диагональной линии, проходящей через пересечение осей. Вы были бы правы, предположив, что если два признака не коррелируют, то нет смысла пытаться использовать регрессию. Однако регрессия и корреляция являются различными статистическими терминами, которые выполняют разные функции14. Значение г (коэффициент линейной корреляции Пирсона) является одним из самых используемых статистических инструментов в этой кни- 102
е. Строго говоря, значение г не является надежным, пока не соблюдены ^едующие требования: • данные (или, точнее, значения в популяции, из которой взята выборка) должны быть нормально распределены (см. табл. 5.1); • две переменные должны быть структурно независимыми (т.е. нельзя произвольно изменять значение как одной, так и другой переменной). Если они не являются независимыми, то следует использовать парный /-критерий или же другой парный тест; • только одна пара измерений должна быть сделана у каждого субъекта, так как измерения, сделанные у последующих субъектов, должны быть статистически независимыми друг от друга, если мы хотим избежать сомнительных оценок интересующих нас параметров популяции14; • каждое значение /"должно сопровождаться значением достигнутого уровня значимости р, которое выражает, с какой вероятностью корреляция такой интенсивности возникала бы случайно (см. раздел 5.5), или доверительным интервалом для коэффициента корреляции, который выражает диапазон, в пределах которого с заданной доверительной вероятностью находится «истинное» значение коэффициента корреляции R в популяции (см. раздел 5.5). (Обратите внимание, что г представляет собой коэффициент корреляции выборки, a R — коэффициент корреляции во всей популяции.) Запомните, что даже если значение г корректно вычислено по выборке данных, оно не говорит вам, является ли связь, даже сильная, причинно-следственной (см. ниже). Что же такое тогда регрессия? Термин «регрессия» относится к математическому уравнению, которое позволяет одну переменную (зависимую переменную, ее также называют переменной отклика) предсказывать по значению другой (независимой переменной). Регрессия в этом случае подсказывает направление влияния, хотя, как рассмотрено в следующем разделе, она тоже не доказывает причинно-следственную связь. В случае множественной регрессии намного более сложное математическое уравнение (которое, спасибо ему, остается вычислительным секретом компьютера) позволяет переменную отклика предсказывать двумя независимыми переменными или более (их часто называют предикторами). Самое простое уравнение регрессии, которое вы можете вспомнить из школьного курса, это у=а+Ьх, где у является зависимой переменной (измеряемой по вертикальной оси), х — независимой переменной (измеряемой по горизонтальной оси), а — пересечением (свободный член). Немногие биологические переменные можно предсказать таким простым 103
уравнением. Масса тела группы людей, например, изменяется с ростом, но нелинейным образом. Я в 2 раза выше моего сына и в 3 раза тяжелее, но хотя я в 4 раза выше моего новорожденного племянника, я более чем в 7 раз тяжелее его. Масса тела в действительности более тесно изменяется с квадратом изменения, чем с самим ростом (так что квадратичная регрессия более вероятна, чем линейная). Конечно, даже когда вы ввели достаточные данные роста и массы в компьютер, чтобы он подсчитал уравнение регрессии, которое лучше всего предсказывает массу тела человека из его роста, ваши предсказания были бы еще довольно плохи, так как масса тела и рост — это не то, что очень сильно коррелирует. Есть другие признаки, которые влияют на массу тела в дополнение к росту, и мы могли бы в соответствии с принципом множественной регрессии ввести данные о возрасте, поле, ежедневном потреблении веществ-энергоносителей и физической активности в компьютер и спросить его, какой вклад каждый из этих предикторов вносит в общее уравнение (или модель). Элементарные принципы, описанные здесь, особенно пункты на предыдущей странице, должны помочь вам установить, правильно ли используются корреляция и регрессия в работе, которую вы читаете. Более подробное обсуждение предмета можно найти в учебнике Мартина Блэнда14 и в 4-й статье серии «Основы статистики для клиницистов»4. Сделаны ли предположения о природе и направлении причинности? Запомните пример ложного вывода: из-за того, что в городе много безработных и очень высокая преступность, не обязательно следует, что безработные совершают преступления! Иными словами, наличие связи между А и Б еще ничего не говорит о наличии и направлении причинности. Чтобы продемонстрировать, что А вызвало Б (скорее, чем Б вызывает А, или и А, и Б вызываются В), вам нужно нечто больше, чем просто коэффициент корреляции. Врезка 5.2 дает некоторые критерии, разработанные сэром Остином Брэдфордом Хиллом, которые следует использовать ранее, нежели можно будет предположить существование причинно-следственной связи. 5.5. Вероятность и доверие Подсчитаны и интерпретированы ли соответствующим образом значения р? Одно из первых значений, которое студент, изучающий статистику, учится подсчитывать, — значение /?; это вероятность того, что любой отдельный 104
Врезка 5.2. Проверка выводов о причинности • Есть ли доказательства связи, полученные в экспериментах на людях? • Сильна ли связь (причины и следствия)? • Согласуются ли между собой связи, обнаруженные в разных исследованиях? • Наблюдается ли временная связь (т.е. предшествовала ли постулированная причина постулированному эффекту)? • Имеется ли градиент доза—отклик (т.е. следует ли больший постулированный эффект за большей постулированной причиной)? • Имеет ли причинно-следственная связь эпидемиологический смысл? • Имеет ли связь биологический смысл? • Специфична ли взаимосвязь? • Аналогична ли связь ранее доказанной причинной связи? исход может возникать в силу случайности. Стандартная научная практика, которая в целом небесспорна, обычно принимает значение р меньше чем 1 к 20 (выраженное какр<0,05 и эквивалент соотношению 20 к 1) как «статистически значимое», а значениер меньше чем 1 к 100 (р<0,01) как «статистически высокозначимое». Тогда по определению 1 случайная связь из 20 (это примерно около одной большой публикации исследования на выпуск журнала) окажется значимой, когда она не является таковой, и 1 к 100 окажется высокозначимым, когда этот вывод в действительности будет тем, что мои дети называют «обмишулиться». Следовательно, если вы должны анализировать многочисленные варианты исходов по вашему набору данных, вы должны так скорректироватьр, чтобы попытаться учесть эту особенность (некоторые авторы рекомендуют метод Бонферонни)16'17. Результат в статистически значимом диапазоне (/?<0,05 или /?<0,01 в зависимости от того, что вы выбрали в качестве критического уровня значимости) предполагает, что авторы должны отказаться от нулевой гипотезы (т.е. гипотезы отсутствия реального различия между двумя группами). Однако, как показано выше (см. раздел 4.6), значение/? в незначимом диапазоне означает либо отсутствие различия между группами, либо слишком малое число пациентов с таким различием, если оно существует. Оно не подскажет вам, чему отдать предпочтение. 105
Значение р имеет дальнейшее ограничение. Г. Гайат(С Guyatt) и коллеги в 1-й статье своей серии «Основы статистики для клиницистов» по проверке гипотезы при помощи значений р делают вывод: «Зачем использовать одно критическое значение (для статистической значимости), когда выбор такой точки спорен? Зачем делать вопрос, эффективно ли лечение, дихотомичным (решение «да» или «нет»), когда правильнее наблюдать это как непрерывный континуум?». Для этого нам нужны доверительные интервалы, которые рассматриваются ниже. Были ли подсчитаны доверительные интервалы, и отражают ли они выводы авторов? Доверительный интервал, который хороший статистик может подсчитать на примере любого статистического критерия (/-тест, значение г, абсолютное уменьшение риска, объем наблюдений, необходимый для вывода, чувствительность, специфичность и другие ключевые черты диагностического теста), позволяет вам оценить как для «положительных» испытаний (тех, которые показывают статистически значимое различие между двумя исходами испытания), так и для «отрицательных» (тех, которые не показывают различия) сильна или слаба сила фактов и является ли исследование окончательным (т.е. делает очевидной потребность в дальнейших похожих исследованиях). Подсчет доверительных интервалов освещен с большой ясностью в книге Gardner и Altman «Статистика с доверием», их интерпретацию осуществили Guyatt и коллеги (2). Если вы повторите одно и то же клиническое испытание сотни раз, вы не будете получать всегда точно такой же результат. Однако в среднем вы установите некий уровень различия (или отсутствия различия!) между двумя результатами испытания. В 90% испытаний различие между двумя исходами находилось бы в пределах определенных широких границ, а в 95% испытаний оно лежало бы между более широкими рамками. Если, как обычно бывает, вы провели только одно испытание, то как вы узнаете, насколько близок ваш результат к «реальному» различию между двумя группами? Вы этого не знаете. Однако при подсчете 95% доверительного интервала вокруг вашего результата вы сможете сказать, что есть 95% уверенности, что «реальное» различие лежит между этими двумя границами. Сентенция, которую надо искать в работе, должна звучать приблизительно так: «В испытании лечения сердечной недостаточности 33% пациентов, рандомизированных на ингибиторы АСЕ, умерли, тогда как среди пациентов, рандомизированных на гидралазин и 106
нитраты, умерли 38%. Точечная оценка различия между группами (наилучшая оценка пользы для жизни выживших от использования ингибитора АСЕ) равна 5%. 95% доверительный интервал этого различия имеет границы от -1,2 до +12%». Результаты можно выразить в краткой форме: «Группа ингибитора АСЕ имела на 5% более высокую выживаемость (95% доверительный интервал от —1,2 до 12%)». В этом отдельном примере 95% доверительный интервал покрывает нулевое различие, и если бы мы выражали результат дихотомически (т.е. «доказана» или «не доказана» гипотеза), мы бы классифицировали это как отрицательный исход («не доказана»). Пока же, как утвервдают Г. Гайат и коллеги, есть возможное реальное различие, и оно, вероятно, лежит ближе к 5%, чем к — 1,2% или к +12%. Более разумным выводом из этих результатов является то, что «все существующие исходы эквиваленты и если ингибитор АСЕ является допустимым выбором для пациентов с сердечной недостаточностью, то сила влияния этого препарата на исход невелика» (2). Как обсуждается в разделе 8.3, чем более многочисленно испытание (или больше собранных результатов нескольких испытаний), тем уже доверительный интервал и с большей вероятностью его результат является окончательным. В интерпретации «отрицательных испытаний» нужно знать, «какова вероятность, что большее испытание даст значимую пользу». Чтобы ответить на этот вопрос, посмотрите на верхнюю границу 95% доверительного интервала результата. Это только 1 шанс из 40 (т.е. 2,5% , тогда как другие крайние результаты, также 2,5%, будут лежать левее нижнего 95% доверительного интервала), что реальный результат будет меньше или больше значений, попавших в интервал. Теперь спросите себя, был бы этот уровень различия клинически значимым, и если это не так, вы можете классифицировать испытание не только как отрицательное, но и как окончательное. Если вместе с тем верхняя граница 95% доверительного интервала представляет собой клинически значимый уровень различия мелщу группами, испытание может быть отрицательным, но не является окончательным. До недавнего времени использование доверительных интервалов было необычно в медицинских работах. В одном обзоре 100 статей из 3 ведущих журналов (The New EnglandJournal of Medicine, Annals of Internal Medicine, and Canadian Medical Association Journal) только 43% авторов вообще приводили доверительные интервалы, а 66% давали только значение р. Эта доля теперь, вероятно, несколько выше, но, даже если 107
это и так, многие авторы неправильно интерпретируют доверительные интервалы. Вы должны внимательно прочитать раздел статьи «Обсуждение», чтобы увидеть, сделали ли авторы вывод правильно, (а) подтвердило ли испытание гипотезу и до какой степени и (б) нужны ли какие- либо дальнейшие исследования. 5.6. Подводя итоги (количественное определение риска пользы и вреда) Выражали ли авторы эффекты вмешательства в рамках вероятной пользы или вреда, который может ожидать конкретный па- циент? Легко сказать, что данное вмешательство приводит к «статистически значимому различию» в исходе, но если мне предложат принимать новое лекарство, я бы хотела знать, насколько лучше мои шансы (в рамках любого отдельного исхода), чем, если я бы его не принимала. Четыре правила арифметики (если вы умеете прибавлять, вычитать, умножать и делить, вы сможете следовать рекомендациям этого раздела) дадут вам возможность ответить на этот вопрос объективно и понятно и для нестатистика. Эти подсчеты — относительное уменьшение риска, абсолютное уменьшение риска, число пациентов для лечения и отношение шансов. Позвольте мне рассказать про обзор, который провели Tom Fahey и его коллеги в 1995 г. Они написали 182 членам правления медицинских служб в Англии (все из них каким-либо образом были ответственны за принятие важных решений по здравоохранению) о 4 различных реабилитационных программах для жертв сердечного приступа. Они спросили, какую бы из программ их адресаты предпочли спонсировать: • программа А уменьшала смертность на 20%; • программа Б уменьшала абсолютное число смертей на 3%; • программа В повышала выживание пациентов с 84 до 87%; • программа Г подразумевала, что при лечении 31 человека у 1 из них смерть будет предотвращена. Из 140 членов правления, которые откликнулись, только 3 заметили, что все 4 «программы» в действительности предполагали один и тот же набор результатов. Остальные 137 выбрали одну из программ, показав потребность в лучшем базовом образовании по эпидемиологии (а также и собственное незнание) для членов правления медицинских ведомств. 108
Продолжим с примером в табл. 5.2, который Fahey и коллеги воспроизвели из исследования Salim Yusuf и соавт20. Я выразил цифры как таблицу сопряженности 2x2, уточнив, какое лечение получали пациенты в рандомизированном испытании и были ли они живы или умерли через 10 лет. Простая математика говорит вам, что пациенты при обычном медицинском лечении имеют шанс умереть в течение 10 лет, равный 404/1324 = 0,305, или 30,5%. Обозначим этот риск как х. Пациенты, случайно выбранные для шунтирования, имеют шанс умереть в течение 10 лет, равный 350/1325 = 0,264, или 26,4%. Обозначим этот риск как у. Относительный риск (ОР) смерти, т.е. риск у пациентов с шунтированием по отношению к риску у пациентов контрольной группы, равен у/х, или 0,264/0,305=0,87 (87%). Сокращение относительного риска (СОР), т.е. величина, на которую риск смерти сокращается при шунтировании, равна 100—87=(1— */Д)=13%. Сокращение абсолютного риска (САР), т.е. абсолютная величина, на которую шунтирование сокращает риск смерти в течение 10 лет, равна 30,5-26,4=4,1% (0,041). Число больных, которых необходимо лечить определенным методом в течение определенного времени, чтобы достичь определенного эффекта или предотвратить неблагоприятный исход (ЧБНЛ), т.е. количеству пациентов, которым необходимо провести шунтирование, чтобы предотвратить в среднем 1 смерть за 10 лет, есть величина, обратная сокращению абсолютного риска (ЧБНЛ =1/САР), и равна 1/0,041 = 24. Окончательный способ выражения эффекта лечения, который я хочу представить здесь, это отношение шансов (ОШ). Вернитесь к табл. 5.2 и вы увидите, что шансы умереть по сравнению с шансами выжить для пациентов в группе лечения равны 404/921 = 0,44, а для пациентов в группе шунтирования равны 350/974 = 0,36. Отношение этих шансов будет 0,36/0,44 = 0,82. Общие формулы для подсчета этих эффектов «окончательных итогов» вмешательства приведены в Приложении 4. Для обсуждения того, Таблица 5.2. Эффект лечения при коронарной болезни Вид лечения Медикаментозная ^терапия Коронарное ^шунтирование Исход за 10 лет наблюдения умерли 404 350 живы 921 974 Общее число рандомизированных пациентов 1325 1324 109
какое из этих значений является самым полезным и в каких обстоятельствах, см. статью Jaenschke и коллег в серии «Основы статистики для клиницистов (3) или главу 7 (Выбор лучшей терапии) учебника клинической эпидемиологии Sackett и соавт21. 5.7. Резюме Можно избежать серьезного заблуждения, не принимая на веру статистическую компетенцию (и/или интеллектуальную честность) авторов. Статистика может привести в замешательство, и понимание ее более тонких нюансов часто требует помощи эксперта. Однако я надеюсь, что эта глава показала вам, что статистика, используемая в большинстве медицинских работ, может оцениваться неэкспертом, использующим простой контрольный список вопросов, данный в Приложении 1. Кроме того, вы можете проверить работу, которую вы читаете (или пишете), на ошибки, используя врезка 5.1. Литература 1. Guyatt G., Jaenschke R., Heddle N. et al. Basic statistics for clinicians. 1. Hypothesis testing// Can. Med. Assoc. J. - 1995. - Vol. 152. - P. 27-32. 2. Guyatt G.f Jaenschke R., Heddle N. etal. Basic statistics for clinicians. 2. Interpreting study results: confidence intervals // Ibid. — P. 169—173. 3. Jaenschke R., Guyatt G., Shannon H. et al. Basic statistics for clinicians. 3. Assessing the effects of treatment: measures of association // Ibid. -P. 351-357. 4. Guyatt G., WalterS., Shannon H. et al. Basic statistics for clinicians. 4. Correlation and regression // Ibid. — P. 497—504. 5. Bland M. An Introduction to Medical Statistics. - Oxford: Oxford University Press, 1987. 6. Airman D. Practical Statistics for Medical Research. — Lond.: Chapman and Hall, 1995. - P. 461-462. 7. Bland M. An introduction to medical statistics. — Oxford: Oxford University Press, 1987. - P. 112-129. 8. Hughes M.D., Pocock S.J. Stopping rules and estimation problems in clinical trials // Stat. Med. - 1987. - Vol. 7. - P. 1231. 9. Stewart L.A., Par mar M.KB. Bias in the analysis and reporting of randomized controlled trials // Int. J. Technol. Assess. Health Care. - 1996. - Vol. 12.-R 264-275. 110
10. Canadian Cooperative Stroke Group. A randomized trial of aspirin and sulfinpyrazone in threatened stroke // N. Engl. J. Med. - 1978. - Vol. 299. - P. 53-59. 11. Antiplatelet Triallists Collaboration. Secondary prevention of vascular disease by prolonged antiplatelet treatment // BMJ. - 1988. - Vol. 296. - P. 320-321. 12. Oxman A.D., Guyatt G.H. A consumer's guide to subgroup analysis // Ann. Intern. Med. - 1992. - Vol. 116. - R 79-84. 13. Altman D. Practical Statistics for Medical Research. — Lond.: Chapman and Hall, 1995. - P. 126-130. 14. Bland M. An Introduction to Medical Statistics. - Oxford: Oxford University Press, 1987. - P. 188-215. 15. Bradford Hill A. The environment and disease: association or causation? // Proc. R. Soc. Med. - 1965. - Vol. 58. - P. 295-300. Adapted version is reproduced with permission from Haines A. Multi-practice research: a cohort study // Critical Reading for Primary Care / Eds R. Jones, A.-L. Kinmonth. - Oxford: Oxford University Press, 1995. - P. 124. 16. Altman D. Practical Statistics or Medical Research. — Lond.: Chapman and Hall, 1995. - P. 210-212. 17. Pocock S.J., Geller X.P.L., Tsiatis A.A. The analysis of multiple endpoints in clinical trials // Biometrics. - 1987. - Vol. 43. - P. 487-498. 18. Gardner M.J., Altman D.G. (eds). Statistics with Confidence: Confidence Intervals and Statistical Guidelines. — Lond.: BMJ Publications, 1989. 19. Fahey Т., Griffiths S.f Peters T.J. Evidence based purchasing: understanding the results of clinical trials and systematic reviews // BMJ. — 1995. - Vol. 311. - P. 1050-1060. 20. YusufS., ZuckerD., Peduzzi P. et al. Effect of coronary artery bypass surgery on survival: overview of ten year results from randomized trials by the Coronary Artery Surgery Triallists Collaboration // Lancet. — 1994. — Vol. 344. - P. 563-570. 21. Sackett D.L., Haynes R.B., Guyatt G.H.Jugwell P. Clinical Epidemiology — a Basic Science for Clinical Medicine. — Lond.: Little, Brown, 1991.-P. 187-248. 22. Автандилов Г.Г. Медицинская морфометрия: Руководство. — М.: Медицина, 1990. - 384 с. 23. Анализ данных на ЭВМ. (На примере системы СИТО) / Александров В.В., Алексеев А.И., Горский Н.Д. - М.: Финансы и статистика, 1990.- 192 с. 111
24. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. - М.: Мир, 1982. - 488 с. 25. Власов В.В. Введение в доказательную медицину. М.: Медиа Сфера, 2001. -392 с. 26. Бейли Н. Математика в биологии и медицине. — М.: Мир, 1970. — 270 с. (Основные главы этой книги доступны на сайте БИОМЕТРИКА по адресу http://www.biometrica.tomsk.ru/lib/beili.htm ) 27. Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии: Пер. с англ. — М.: Прогресс. — 495 с. 28. Иванов Ю.И., Погорелюк О.Н. Обработка результатов медико- биологических исследований на микрокалькуляторах. — М.: Медицина, 1990.-222 с. 29. Лакин Г.Ф. Биометрия. — М.: Высшая школа, 1990. — 352 с. 30. Леонов В.П. Обработка экспериментальных данных на программируемых микрокалькуляторах / Под ред. Б.А. Гладких, — Томск: ТГУ, 1990.-376 с. 31. Мюллер П., Нойман Л., Шторм Р. Таблицы по математической статистике. — М.: Финансы и статистика, 1982. — 272 с. 32. Плохинский НА. Математические методы в биологии. — М.: МГУ, 1978.-226 с. 33. Поллард Дж. Справочник по вычислительным методам статистики. — М.: Финансы и статистика, 1982. — 344 с. 34. Рунион Р. Справочник по непараметрической статистике. Современный подход. — М.: Финансы и статистика, 1982. — 198 с. 35. Сереиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. — М.: ГЭОТАР-МЕД, 2001. — 256 с. 36. Урбах В.Ю. Биометрические методы. Статистическая обработка опытных данных в биологии, сельском хозяйстве и медицине. — М.: Наука, 1964.-416 с. 37. Ферстер Э., Ренц Б. Методы корреляционного и регрессионного анализа. — М.: Финансы и статистика, 1983. — 302 с. 38. Флетчер Р., Флетчер С, Вагнер Э. Клиническая эпидемиология. Основы доказательной медицины: Пер. с англ. / Под общ. ред. СЕ. Ба- щинского, СЮ. Варшавского. — М.: Медиа Сфера, 1998. — 352 с. 39.ХоллендерМ., ВулфД. Непараметрические методы статистики: Пер. с англ. Д.С Шмерлинга. — М.: Финансы и статистика, 1983. — 518 с. 40. Хургин Я.И. Да, нет или может быть. — 2-е изд. — М.: Наука, 1983.-208 с. 112
Глава 6 Испытания лекарственных средств 6.1. Доказательная медицина и маркетинг Если вы практикующий врач или медсестра (т.е. назначаете лекарственные средства), в вас заинтересована фармацевтическая промышленность. Часть своего многомиллионного ежегодного рекламного бюджета она тратит, пытаясь повлиять на вас (см. врезку 6.1). Наиболее эффективный способ изменить врачебные привычки назначения лекарственных средств (ЛС) — персональные обращения представителей фармацевтических компаний (в Великобритании их называют «рэпы»), которые приходят к врачу с портфелями, полными сведений в поддержку их препаратов. Действительно, как подробно рассматривается в главе 12, движение доказательной медицины в последние годы многое почерпнуло из фармацевтической промышленности в плане изменения поведения врачей и теперь использует такие же изощренные методы убеждения2. Перед тем как согласиться на встречу с представителем, вспомните основы методологии научного исследования. В идеале на вопросы о пользе терапевтических вмешательств ответы должны находиться в рандомизированных контролируемых испытаниях (см. разделы 3.4 и 3.6). Предварительные вопросы о фармакокинетике (т.е. что происходит с препаратом, пока он транспортируется в область своего действия), особенно биодоступности, требуют прямого эксперимента на здоровом добровольце, а если это этично и практически возможно, и больном добровольце. Информация о распространенных (надо надеяться, незначительных) побочных эффектах может быть получена в РКИ, проводимых для выявления эффективности Л С; в этих же РКИ можно выразить частоту побочных эффектов. Редкие (обычно более серьезные) побочные эффекты требуют фармаконадзора (сбор сведений у пациентов, получающих но- 113
Врезка 6.1. Десять подсказок в помощь представителю фармацевтической компании: как выставить ваш продукт в наилучшем свете • Придумайте правдоподобный физиологический механизм действия для вашего препарата (почему препарат работает) и научитесь его эффектно представлять. Желательно также найти суррогатную конечную точку, на которую препарат оказывает сильное влияние, хотя она может и не быть строго достоверной (см. раздел 6.3) • При планировании клинического испытания выберите такую группу пациентов, клинические характеристики и длительность испытания, при которых эффективность препарата максимальна • По возможности старайтесь сравнивать ваш препарат только с плацебо. Если вам приходится сравнивать его с препаратом-конкурентом, убедитесь, что последний назначался в дозах, ниже терапевтических • Результаты пилотных экспериментов включайте в диаграммы полных исследований — так будет казаться, что рандомизировано больше пациентов, чем на самом деле • Не упоминайте об испытаниях, в которых наблюдались смертельные исходы или серьезные побочные эффекты в группе лечения. По возможности такие испытания старайтесь не публиковать • Попросите художников нарисовать графики, подкрепляющие ваши слова максимальным визуальным эффектом. Графики будут смотреться убедительнее, если не подписывать оси и не указывать, какие использовались шкалы — линейные или логарифмические. Будьте уверены в том, что вы не раскрываете индивидуальные сведения о больных и доверительные интервалы • Станьте мастером «зависающих» сравнений («лучше» — но лучше, чем что?) • Переверните классическую иерархию доказательств так, чтобы отдельные случаи и неконтролируемый опыт превосходили по своей доказательности рандомизированные испытания и мета-анализы • Назовите по крайней мере трех всем известных клиницистов, использующих ваш препарат и пропагандирующих его использование • Представьте анализ «эффективности затрат», показывающий, что ваш препарат, хоть он и дороже по сравнению с конкурентом, «на самом деле оказывается дешевле» (см. раздел 10.1) 14
вое, только что поступившее на рынок ЛС) и исследований типа «случай-контроль» (см. раздел 3.5). В идеале для подтверждения причинности проводят индивидуальный эксперимент, при котором пациенту, у которого отмечалась реакция, по-видимому связанная с ЛС, в строго контролируемых условиях это Л С назначается снова3. Представители фармацевтических компаний сообщают не так уж много неправды, как могли бы (маркетинг лекарственных препаратов превратился в очень изощренную науку). Тем не менее известна их потрясающая способность культивировать незнание основ эпидемиологии и дизайна клинических испытаний, когда их это устраивает4. Они часто пользуются этим, например, представляя результаты неконтролируемых испытаний и выражая их в виде различий в определенном исходе до и после лечения5. Вернитесь к разделу 3.6, просмотрите классическую серию статей, посвященных эффекту плацебо, в журнале «Lancet»6"12 или недавний обзор «Программы по оценке медицинских технологий Великобритании»13. Вы поймете, почему неконтролируемые испытания «до и после лечения» — предмет модных журналов, а не настоящей науки. Доктор Андрю Херксхаймер (Andrew Herxheimer), который многие годы был редактором журнала «Drug and Therapeutics Bulletin», как-то провел изучение литературы, на которую ссылались производители лекарственных препаратов в рекламах в британских медицинских журналах. Он говорит, что значительное число таких отсылок аппелирует к неопубликованным данным, еще больше — к публикациям, написанным, отредактированным или опубликованным самими производителями лекарственных средств. Показано, что сведения из таких источников иногда (хотя и не всегда) представляют меньшую научную ценность, чем данные независимых рецензируемых журналов5. Если бы вы работали на фармацевтическую компанию, совершившую большой научный прорыв, вы наверное опубликовали бы результаты в таких журналах, как «Lancet» или «New England Journal of Medicine». Иными словами, вам не нужно сразу же отбрасывать статьи об испытаниях лекарственных средств, опубликованные в малоизвестных источниках, но в этих случаях вам следует обратить особое внимание на информацию о методах и статистическом анализе. 6.2. Решение о выборе лечения В книге «Клиническая эпидемиология — основная наука клинической медицины» Д. Саккет и соавт. доказывают, что перед назначением больному лекарственного препарата врач должен: 115
• определить конечную цель лечения для данного пациента (излечение, предотвращение рецидива, снижение нетрудоспособности, предотвращение последующих осложнений, утешение, паллиативная помощь, облегчение симптомов и т.д.); • выбрать наиболее подходящее лечение, используя все имеющиеся сведения (включая ответ на вопрос, нужен ли вообще больному лекарственный препарат); • уточнить план лечения (как вы определите, когда лечение можно прекратить, изменить его схему или перейти на другое лечение?). Например, при лечении артериальной гипертензии врач или медсестра может решить, что: • конечная цель лечения — профилактика поражений мозга, глаз, сердца, почек и т.д. (и поэтому предотвращение смертельного исхода); • специфическое лечение — выбор должен осуществляться между различными классами антигипертензивных препаратов (на основании рандомизированных плацебо-контролируемых и сравнительных исследований), а также между немедикаментозными видами лечения, такими, как ограничение в пище соли. • непосредственной целью лечения может быть достижение диас- толического артериального давления (измерение на правой руке в положении обследуемого сидя) ниже 90 мм рт.ст. или как можно ближе к этому значению (учитывая побочные эффекты лекарств). Если эти этапы не соблюдаются (как это часто бывает, например, при уходе за терминальным больным), возникает хаос. Скрытым пренебрежением к суррогатным конечным точкам Д. Саккет и его коллеги напоминают нам, что выбор специфической терапии должен определяться достоверными сведениями о том, что действительно работает, а не о том, что, по-видимому, работает или должно работать. Они пишут: «Сегодняшнее лечение, если оно основано на биологических фактах или неконтролируемом клиническом опыте, может завтра стать дурной шуткой»4. 6.3. Суррогатные конечные точки Этот раздел я включила не только потому, что суррогатные точки — моя любимая тема. Если вы практикующий врач (за пределами академического учреждения), ваш контакт с публикуемыми статьями может ограничиваться тем, что вам «скармливают» представители фармацевта - 116
ческих компаний. В игре под названием «суррогатные конечные точки» они являются искусными игроками. Поэтому я неустанно борюсь за то, чтобы эти исходы всегда очень тщательно оценивались. Суррогатную конечную точку (суррогатный исход, промежуточный исход) можно определить как «относительно легко измеряемый параметр, предсказывающий редкий или отдаленный исход токсического фактора (например, загрязняющий агент), терапевтического вмешательства (например, лекарственный препарат, хирургическая процедура, совет), но не являющийся сам по себе прямым показателем клинической пользы или вреда». Растущий интерес к суррогатным конечным точкам отражает две важные характеристики их применения: • они могут значительно уменьшить размер выборки, продолжительность и соответственно стоимость клинических испытаний; • они позволяют оценивать эффекты лечения в ситуациях, когда использование основных показателей исходов сложно или неэтично. В оценке лекарственных препаратов наиболее часто применяются следующие суррогатные конечные точки: • измерения фармакокинетики (например, кривые изменения концентрации препарата или его активных метаболитов в зависимости от времени); • измерения in vitro (т.е. в лаборатории), например определение средней ингибирующей концентрации антимикробного препарата в культуре бактерий; • макроскопический вид тканей (например, эрозия слизистой желудка при эндоскопическом исследовании); • изменения в уровне «биологических маркеров заболевания» (например, микроальбуминурия для определения диабетической болезни почек15); • рентгенологические данные (например, затенение на рентгенограмме грудной клетки). Суррогатные конечные точки имеют ряд недостатков. Во-первых, изменение суррогатной конечной точки не отвечает на важные предварительные вопросы: «Какова цель лечения у этого пациента?» и «Какое лечение, согласно достоверным и надежным научным исследованиям, является лучшим при этом состоянии?». Во-вторых, суррогатная конечная точка может не отражать точно непосредственных целей лечения; другими словами, она может не быть достоверной и надежной. В-третьих, использование суррогатной конечной точки имеет те же ограниче- 117
ния, что и использование любого другого единичного параметра оценки успеха или неудачи лечения — игнорирование других параметров. Расчет на единственную суррогатную конечную точку как меру успеха лечения отражает узкие или наивные клинические представления. Наконец, суррогатные конечные точки часто разрабатываются на моделях заболеваний у лабораторных животных, поскольку в этом случае изменения специфических параметров могут быть зафиксированы в контролируемых условиях в определенной популяции. Экстраполяция этих результатов на заболевание у человека может привести к недостоверным результатам16-18. • В экспериментах на животных изучаемая популяция имеет одинаковые биологические характеристики и может быть генетически ин- бредной. • Важные характеристики как тканей, так и изучаемого заболевания (например, восприимчивость к патогенам, скорость клеточного деления) у животных и человека могут отличаться. • Животные содержатся в контролируемой среде, которая минимизирует влияние образа жизни (например, характера питания, физических упражнений, стресса) и сопутствующего приема лекарственных средств. • Назначение высоких доз химических веществ экспериментальным животным может нарушить нормальные метаболические пути и, таким образом, привести к обманчивым результатам. Для различных химических веществ виды животных, лучше всего служащие для суррогатных конечных точек у людей, различаются. Идеальные характеристики суррогатной конечной точки представлены во врезке 6.2. Микроальбуминурия при диабетическом поражении почек представляет хороший пример маркера, который удовлетворяет большинству, если не всем, этих критериев15. Если представитель фармацевтической компании, который пытается убедить вас в ценности препарата, не может объяснить использование конечных точек, вам следует попросить его предоставить более подробные сведения. Важный пример недостоверного использования суррогатных конечных точек — подсчет CD4-лимфоцитов (разновидность лейкоцитов, которую раньше называли «Т-хелперы») для мониторинга прогрессирования СПИДа у ВИЧ-положительных лиц. В рандомизированном контролируемом испытании CONCORDE сравнивались раннее и позднее начало лечения зидовудином ВИЧ-положительных, но клинически бессимптомных лиц. Предыдущие исследования показали, что раннее начало лече- 118
Врезка 6.2. Идеальные характеристики суррогатной конечной точки • Суррогатная конечная точка должна быть надежной, воспроизводимой, доступной клинически и экономически, легко измеряться количественно, проявлять эффект типа «доза—ответ» (т.е. чем выше уровень суррогатной конечной точки, тем выше вероятность заболевания) • Она должна быть истинным предиктором заболевания (или риска заболевания), а не просто отражать какое-либо воздействие. Связь ме>кду суррогатной конечной точкой и заболеванием должна иметь биологические обоснования • Она должна быть чувствительной, т.е. «положительный» результат суррогатной конечной точки должен выявлять всех или большинство пациентов с повышенным риском возникновения определенного исхода • Она должна быть специфичной, т.е. «отрицательный» результат должен исключать всех или большинство лиц без повышенного риска возникновения определенного исхода • Между «нормой» и «патологией» должна быть четкая граница • Она должна иметь приемлемое значение положительной прогностической ценности, т.е. «положительный» результат должен всегда или обычно означать, что этот пациент имеет повышенный риск определенного исхода (см. раздел 7.2) • Она должна иметь приемлемое значение отрицательной прогностической ценности, т.е. «отрицательный» результат должен всегда или обычно означать, что этот пациент не имеет повышенного риска определенного исхода (см. раздел 7.2) • Суррогатная конечная точка должна подлежать мониторингу контроля качества • Изменения суррогатной конечной точки должны быстро и точно отражать эффективность лечения, особенно, значения должны нормализовываться при ремиссии или излечении ния приводило к более медленному снижению количества С04-клеток (этот показатель уменьшается по мере прогрессирования СПИДа); предполагалось, что более высокое количество CD4-клеток отражает большую вероятность выживания. Испытание CONCORDE неожиданно показало, что, хотя в группе лечения у пациентов количество С04-клеток снижалось медленнее, показатель трехлетней выживаемости в обеих группах был одинаковым. 119
Это испытание подтвердило опасения некоторых специалистов, ставивших под сомненине достоверность этой конечной точки20. В последующих исследованиях предпринимались попытки найти суррогатную конечную точку, которая коррелирует с терапевтическим эффектом, т.е. прогрессированием бессимптомной ВИЧ-инфекции в СПИД и временем выживания после начала заболевания. Эта проблема подробно описана в недавно опубликованном обзоре; в настоящее время прогресси- рование СПИДа гораздо лучше позволяет прогнозировать комбинация маркеров (включая процент CD4 С29-клеток, степень усталости, возраст, уровень гемоглобина), а не просто количество CD4-лимфоцитов21. Если вы думаете, что это единственный пример, когда лучшие мировые ученые избрали неверный путь в погоне за фиктивной конечной точкой, обратитесь к литературе по использованию желудочковых экстрасистол (незначительная аритмичность сокращений сердца) для прогнозирования смерти от серьезных нарушений ритма сердца22,23, концентрации антибиотиков в крови для прогнозирования клинического излечения инфекции24, бляшек на МРТ для выявления прогрессирования множественного склероза25, простатоспецифического антигена (ПСА) для измерения эффективности лечения рака предстательной железы2627. Вам также может быть интересна замечательная литература по разработке достоверных и релевантных суррогатных конечных точек в области профилактики злокачественных заболеваний28. Врачи все более скептически относятся к доводам в пользу применения новых лекарств (или старых лекарств по новым показаниям), не оправданным прямыми доказательствами эффективности. До того как суррогатные конечные точки будут использоваться в продвижении лекарственных препаратов, работники фармацевтической промышленности должны оправдать пользу этих показателей путем демонстрации убедительной и последовательной связи между конечной точкой и развитием или прогрессированием заболевания. Предположение о том, что фармацевтическая промышленность разрабатывает суррогатные конечные точки с намерением ввести в заблуждение лицензирующие органы и практикующих врачей, неправильно. Суррогатные конечные точки, как я доказывала в разделе 6.1, имеют как этические, так и экономические обоснования для использования. Однако производители ЛС заинтересованы в преувеличении достоверности этих конечных точек. С учетом того, что данные, относящиеся к оценке суррогатных конечных точек, не представлены в опубликованных статьях, а разработка таких маркеров является длительным и дорогостоящим 120
процессом, один автор предложил собирать архив, объединяющий данные всех исследований29. Если вы, так же как и я, постоянно задаете вопросы о достоверности суррогатных исходов, вам будет полезно обратиться к обзору на эту тему30. 6.4. Как получить достоверную информацию от представителя фармацевтической фирмы Любой врач, который когда-либо встречался с представителем фармацевтической компании, рекламирующим нестероидные противовоспалительные препараты, наверняка помнит пример с эрозией слизистой желудка. Вопрос, который следует задавать в таких случаях, не «Какова частота эрозии слизистой желудка при приеме вашего препарата?», а «Какова частота потенциально опасных желудочных кровотечений?». Ниже перечислены другие вопросы, которые следует задавать представителю фармацевтической компании. Эта информация заимствована из статьи в журнале «Drug and Therapeutics Bulletin»^ и других источников1'514. 1. Встречайтесь с представителем фармацевтической компании в назначенное время. Выбирайте ту фирму, продукт которой вам интересен. Ограничьте разговор только этим продуктом. 2. Контролируйте беседу. Не выслушивайте заранее отрепетированные банальные фразы, а сразу попросите нужную Вам информацию. 3. Требуйте предоставления независимых сведений, опубликованных в известных рецензируемых журналах. 4. Не читайте рекламных брошюр, которые часто содержат неопубликованные материалы, обманчивые схемы и выборочные цитаты. 5. Игнорируйте такие «доказательства», как, например, использование данного препарата известным уважаемым специалистом. 6. Требуйте обоснованных сведений, используя сокращение STEP: • безопасность (S, от англ. safety), т.е. вероятность отдаленных или серьезных побочных эффектов, вызванных лекарственным препаратом (помните, что редкие, но серьезные побочные реакции на новые препараты могут быть плохо документированы); • переносимость (Т, от англ. tolerability), лучше всего измеряется путем сравнения частоты прекращений приема данного лекарственного препарата и его наиболее популярного конкурента; • эффективность (Е, от англ. efficacy), наиболее значимый аспект этого показателя состоит в сравнении препарата с тем, который вы в настоящий момент предпочитаете больше всего; 121
• стоимость (Р, от англ. price), должна учитывать прямые и непрямые затраты (см. раздел 10.3). 7. Строго оценивайте научные сведения, обращая особое внимание на размер выборки, методологическое качество клинических испытаний и использование суррогатных конечных точек. Не принимайте теоретических доводов в пользу лекарственного препарата (например, «более длинный период полужизни») без прямых доказательств клинической пользы. 8. Не принимайте новизну продукта как довод к его использованию. Имеются серьезные научные аргументы в пользу того, что следует делать наоборот32. 9. Отказывайтесь от бесплатных «пробников» и от участия в маленьких неконтролируемых «научных» исследованиях. 10. Кратко запишите содержание вашей беседы и при необходимости снова обратитесь к этим записям. Литература 1. Shaughnessy A.F., Slawson D.C. Pharmaceutical representatives // BMJ. - 1996. - Vol. 312. - P. 1494-1495. 2. Thomson O'Brien MA., OxmanA.D., HaynesR.B. et al. Educational outreach visits: effects on professional practice and health care outcomes // The Cochrane Library, Issue 1. — Oxford: Update Software, 2000. 3. Sackett D.L., Haynes R.B., Guyatt G.H., Tugwell P. Clinical Epidemiology — a Basic Science for Clinical Medicine. — London: Little, Brown, 1991. -P. 297-301. 4. Bardelay D. Visits from medical representatives: fine principles, poor practice // Prescriber Int. - 1995. - Vol. 4. - P. 120-122. 5. Bero LA., Rennie D. Influences on the quality of published drug studies // Int. J. Technol. Assess. Health Care. - 1996. - Vol. 12. - P. 209-237. 6. Kleijnen J., de Craen A.J., van Everdingen J., Krol L. Placebo effect in double-blind clinical trials: a review of interactions with medications // Lancet. - 1994. - Vol. 344. - P. 1347-1349. 7. Joyce C.R. Placebo and complementary medicine // Ibid. — P. 1279— 1281. 8. Laporte J.R., Figueras A. Placebo effects in psychiatry // Ibid. - P. 1206-1209. 9. Johnson A.G. Surgery as a placebo // Ibid. - P. 1140-1142. 10. Thomas KB. The placebo in general practice // Ibid. - P. 1066-1067. 122
11. Chaput de Saintonge DM., Herxheimer A. Harnessing placebo effects in health care // Ibid. - P. 995-998. 12. Gotzsche P.C. Is there logic in the placebo? // Lancet. - P. 925- 926. 13. Crow R., Gage H., Hampson S. et al. The role of expectancies in the placebo effect and their use in the delivery of health care: a systematic review// Health Technol. Assess. - 1999. - Vol. 3. No. 3. Available in full text on http://www.hta.nhsweb.nhs.uk/ 14. Sackett D.L., Haynes R.B., Guyatt G.H., Tugwell P. Clinical Epidemiology — a Basic Science for Clinical Medicine. — Lond.: Little, Brown, 1991. -P. 187-248. 15. Epstein M., Paruing H.H., Ruilope LM. Surrogate endpoints and renal protection: focus on microalbuminuria // Blood Pressure. — 1997. — Vol. 2. - Suppl. - P. 52-57. 16. Gotzsche P., Liberati A., Torn V., Rosetti L. Beware of surrogate outcome measures // Int. J. Technol. Assess. Health Care. — 1996. — Vol. 12.-P. 238. 17. Lipkin M. Summary of recommendations for colonic biomarker studies of candidate chemopreventive compounds in phase II clinical trials // J. Cell. Biochem. - 1994. - Vol. 19. - Suppl. - P. 94-98. 18. Kimbrough R.D. Determining acceptable risks: experimental and epidemiological issues // Clin. Chem. - 1994. - Vol. 40. - P. 1448-1453. 19. CONCORDE Co-ordinating Committee. CONCORDE MRC/ANRS randomized double-blind controlled trial of immediate and deferred zidovudine in symptom-free HIV infection // Lancet. - 1994. - Vol. 343. - P. 871- 881. 20. Jacobson M.A., Bacchetti P., Kplokathis A. et al. Surrogate markers for survival in patients with AIDS and AIDS related complex treated with zidovudine // BMJ. - 1991. - Vol. 302. - P. 73-78. 21. Hughes M.D., Daniels M.J., Fischi M.A. et al. CD4 cell count as a surrogate endpoint in HIV clinical trials: a meta-analysis of studies of the AIDS Clinical Trials Group//AIDS.- 1998.-Vol. 12. - P. 1823-1832. 22. Epstein A.E., Hallstrom A.O., Rogers W.J. et al. Mortality following ventricular arrhythmia suppression by encainide, flecainide and moricizine after myocardial infarction//JAMA. - 1993. - Vol. 270. - P. 2451-2455. 23. Lipicky R.J., Packer M. Role of surrogate endpoints in the evaluation of drugs for heart failure //J. Am. Coll. Cardiol. - 1993. - Vol. 22. - Suppl. A.-P. 179-184. 123
24. Hyatt J.M., McKinnon P.S., Zimmer G.S., Schentag J.J. The importance of pharmacokinetic/pharmacodynamic surrogate markers to outcome. Focus on antibacterial agents // Clin. Pharmacokinet. — 1995. — Vol. 28.-P. 143-160. 25. Anonymous. Interferon beta-lb — hope or hype? // Drug Ther. Bull. — 1996.-Vol. 34.-P. 9-11. 26. CarducciMA., DeWeese T.L., Nelson J. B. Prostate-specific antigen and other markers of therapeutic response // Urol. Clin. North Am. — 2000. — Vol. 26.-P. 291-302. 27. Schroder F.H., Kranse R., Barbet N. et al. Prostate-specific antigen: a surrogate endpoint for screening new agents against prostate cancer? // Prostate. - 2000. - Vol. 42. - P. 107-115. 28. See entire issue of J. Cell. Biochem. — 1994. — Vol. 19. - Suppl. 29. Aickin M. If there is gold in the labelling index hills, are we digging in the right place? //J. Cel. Biochem. - 1994. - Vol. 19. - Suppl. - P. 91- 93. 30. Buyse M., Molenberghs G. Criteria for the validation of surrogate endpoints in randomized experiments // Biometrics. — 1998. — Vol. 54. — P. 1014-1029. 31. Anonymous. Getting good value from drug reps // Drug Ther. Bull. — 1983.-Vol. 21.-P. 13-15. 32. FernerR.E. Newly licensed drugs // BMJ. - 1996. - Vol. 313. - P. 1157-1158. 124
Глава 7 Диагностические и скрининговые исследования 7.1. Пример с десятью подсудимыми Если вы незнакомы с методами оценки диагностических исследований, а математические объяснения (например, «давайте примем это значение за *...») малопонятны, вам может помочь следующий пример. Десять подсудимых, обвиняемых в убийстве, ожидают решения судьи. Из них только трое действительно совершили преступление, семь человек невиновны. Судья рассматривает каждое дело и признает шесть человек виновными в преступлении. Из них четыре человека осуждены неправильно. Один убийца оказывается на свободе. Эту информацию можно представить в виде таблицы (табл. 7.1). Обратите внимание, что «истина» (т.е. совершал ли человек убийство или нет) отражена в верхнем горизонтальном ряду таблицы, а вердикт судьи (который может отражать, а может и не отражать истину) — в левом вертикальном столбце. Таблица 7.1. Исходы процесса над 10 подозреваемыми в убийстве Вердикт судьи «Виновен» «Невиновен» Истина Убийца Справедливо осуждены 2 человека Несправедливо оправдан 1 человек Неубийца Несправедливо осуждены 4 человека Справедливо оправданы 3 человека Вы должны видеть, что эти цифры, если они типичны для данного судьи, отражают ряд его характеристик. • Судья правильно выявляет двух из каждых трех истинных убийц. • Он правильно оправдывает трех из каждых семи невинных людей. 125
• Если этот судья счел человека виновным, вероятность того, что это действительно убийца, равна одному их трех. • Если этот судья счел человека невиновным, вероятность того, что он действительно невиновен, равна трем из четырех. • В пяти случаях из десяти судья выносит правильное решение. Эти пять характеристик составляют соответственно чувствительность, специфичность, прогностическую ценность положительного результата теста, прогностическую ценность отрицательного результата теста и индекс точности судьи. Остальная часть этой главы посвящена этим пяти характеристикам применительно к диагностическим (или скрининговым) исследованиям в сравнении с «истинным» диагнозом, или «золотым стандартом». В разделе 7.4 описывается шестая, более сложная (но очень полезная) характеристика диагностического исследования — отношение правдоподобия. (После прочтения главы обратитесь к этому разделу. К тому времени вы должны определить, что отношение правдоподобия положительного вердикта судьи в приведенном примере равно 1,17, а отрицательного вердикта — 0,78. Если не можете, не волнуйтесь — о том, что такое отношение правдоподобия не имеют понятия многие выдающиеся врачи.) 7.2. Сравнение диагностического исследования с «золотым стандартом» Один из наших рабочих рассказал мне, как он, почувствовав недавно жаж,ду, обратился к своему врачу для исследования на диабет, которым страдают члены его семьи. Медсестра попросила его собрать образец мочи и опустила в него специальную полоску. Полоска окрасилась в зеленый цвет, что, по-видимому, означало, отсутствие в моче сахара (глюкозы). Медсестра сказала, что это свидетельствует об отсутствии диабета. Мне трудно было объяснить рабочему, что результат исследования вовсе не свидетельствует об отсутствии диабета, как и решение «виновен» не говорит о том, что человек обязательно является убийцей. Диабет, согласно определению ВОЗ, это уровень глюкозы в крови выше 7 ммоль/л натощак или выше 11,1 ммоль/л после нагрузки 100 г глюкозы (тест на толерантность к глюкозе, когда человек выпивает тошнотворно сладкий напиток, и через 2 ч ему проводят исследование крови). Эти показатели должны быть зафиксированы 2 раза, если у человека нет симптомов, и только 1 раз, если у него есть типичные симптомы диабета (жажда, выделение большого количества мочи и т.д.). 126
Эти строгие критерии можно назвать «золотым стандартом» диагноза «диабет». Другими словами, если пациент отвечает критериям ВОЗ, он может считаться диабетиком, а при отсутствии критериев — нет (тем не менее эксперты ставят под сомнение такие-категоричные заявления, как это; действительно, с момента первого издания этой книги значения в «золотом стандарте» диагностики диабета по уровню глюкозы крови изменились). Однако нельзя сказать то же самое в отношении опускания полосок в случайно взятый образец мочи. Одна из причин — у вас действительно может быть диабет, но почечный порог при этом высок; это означает, что почки сохраняют глюкозу гораздо лучше, чем у большинства людей, и уровень глюкозы в крови должен быть чрезвычайно высоким, чтобы она появилась в моче. Другой вариант — вы можете быть здоровым человеком, но с низким почечным порогом; в этом случае глюкоза попадает в мочу даже если в крови ее концентрация не повышена. Любой человек с диабетом скажет вам, что при этом заболевании часто бывают отрицательные результаты исследования глюкозы в моче. Тем не менее использование тест-полосок для скрининга на диабет имеет много преимуществ по сравнению с тестом на толерантность к глюкозе. Это дешевый, удобный, легкий в исполнении и интерпретации тест, дающий моментальный результат. В реальной жизни люди, как наш рабочий, могут отказаться от проведения теста на толерантность к глюкозе. Даже если он согласен, врач может решить, что симптомы не требуют проведения такого дорогостоящего и сложного исследования. Надеюсь, вы видите, что, хотя по исследованию мочи нельзя точно поставить диагноз диабета, этот тест имеет определенные практические преимущества по сравнению с «золотым стандартом». По этой причине мы его и используем. Чтобы объективно оценить, насколько полезно исследование глюкозы в моче для диагностики диабета, нам нужно отобрать группу людей (например, 100 человек) и провести у каждого из них оба теста: исследование мочи (скрининговый тест) и стандартный тест на толерантность к глюкозе («золотой стандарт»). Затем для каждого человека мы сможем увидеть, совпадают ли результаты скринингового теста с «золотым стандартом». Такое исследование известно как оценка достоверности теста. Мы Можем выразить результаты этого исследования в виде таблицы, подобной табл. 7.2, и подсчитать различные характеристики тестов (табл. 7.3) так, как мы это делали в отношении судьи в самом начале главы. Если значения для различных характеристик теста (таких, как чувствительность и специфичность) находятся в пределах разумного, мы 127
Таблица 7.2. Таблица для выражения результатов оценки диагностического или скринингового теста Результат «золотого стандарта» Результат Заболевание есть а + с Заболевания нет b + d скринингового теста Положительный а + b Истинно положи- Ложноположительный b тельный а Отрицательный с + d Ложноотрицательный с Истинно отрицательный d можем говорить, что тест достоверный (см. ниже вопрос 7). Достоверность исследования глюкозы в моче для диагностики диабета изучалась Андерсон (Andersson) и соавт.2, чьи данные я использовала в примере (табл. 7.4). На самом деле в оригинальное исследование было включено 3268 человек, из которых 67 либо отказались от исследования, либо по каким-то причинам это исследование не было им правильно проведено. Ради простоты я проигнорировала эти моменты и выразила результаты в виде знаменателя (общее количество тестированных) в 1000 человек. Эти данные исходят из эпидемиологического исследования, направленного на определение распространенности диабета в популяции; оценка исследования глюкозы в моче была побочным вопросом, решаемым в основном исследовании. Если бы оценка теста была основной целью исследования, группа включала бы гораздо больше больных диабетом (см. вопрос 2 в разделе 7.3). Если вы обратитесь к оригинальной статье, то увидите, что «золотым стандартом» диагностики истинного диабета был не пероральный тест на толерантность к глюкозе, а гораздо менее стандартная серия наблюдений. Тем не менее этот пример соответствует своим задачам, поскольку он дает нам некоторые цифры, которые можно включить в уравнения, показанные в табл. 7.3. Важные характеристики исследования мочи на диабет можно посчитать следующим образом. • Чувствительность = а/а+с = 6/27 = 22,2%. • Специфичность = d/b+d = 966/973 = 99,3%. • Прогностическая ценность положительного результата теста = а/а+Ь = 6/13 = 46,2%. • Прогностическая ценность отрицательного результата теста = d/c+d = 966/987 = 97,9%. • Индекс точности = (a+d)/(a+b+c+d) = 972/1000 = 97,2%. 19Я
Таблица 7.3. Характеристики диагностического теста, которые могут быть вычислены путем сравнения с «золотым стандартом» в оценке достоверности теста Характеристика теста Чувствительность (sensitivity) Специфичность (specificity) Прогностическая ценность положительного результата теста (positive predictive value) Прогностическая ценность отрицательного результата теста (negative predictive value) Индекс точности (accuracy) Отношение правдоподобия положительного результата (likelihood ratio of a positive test) Другое название Показатель истинной положительности (положителен при заболевании) Показатель истинной отрицательности (отрицательный у здоровых) Посттестовая вероятность положительного результата теста Посттестовая вероятность отрицательного результата теста* Вопрос, на который отвечает данная - характеристика теста Насколько хорош тест для выявления людей, имеющих данное состояние? Насколько хорош тест для правильного исключения людей, не имеющих данного состояния? Если у человека тест положительный, какова вероятность того, что у него действительно есть данное заболевание? Если у человека тест отрицательный, какова вероятность того, что у него действительно нет данного заболевания? Какая часть всех тестов дала правильные результаты (т.е. инстинноположи- тельные и истинно- отрицательные результаты по отношению ко всем)? Насколько более вероятно то, что тест будет положительным у человека с заболеванием по сравнению со здоровым Формула (см. табл. 7.2) а/а + с d/b + d a/a + b d/c + d (a+d)/a +b + с + d) Чувствительность/О - специфичность) * Посттестовая вероятность отрицательного результата теста равна (1 Ценность отрицательного результата теста). прогностическая 129
Таблица 7.4. Результаты оценки исследования глюкозы в моче для выявления диабета по сравнению с «золотым стандартом» — тестом на толерантность к глюкозе2 Результат исследования глюкозы в моче Глюкоза обнаружена у 13 чел. Глюкоза отсутствует у 987 чел. Результат теста на толерантность к глюкозе Диабет есть у 27 чел. Истинноположительный уб Ложноотрицательный у 21 Диабета нет у 973 чел Ложноположительный У7 Истинноотрицатель- ный у 966 • Отношение правдоподобия положительного результата теста = чувствительность/О — специфичность) = 22,2/0,7 = 32. • Отношение правдоподобия отрицательного результата теста = (1 — чувствительность )/специфичность = 77,8/99,3 = 0,78. Теперь вы, возможно, видите, почему я не разделяла уверенности рабочего в том, что у него нет диабета. Положительный тест имеет чувствительность только 22%; это означает, что тест не выявляет почти 4/5 истинных диабетиков. При наличии классических симптомов и семейного анамнеза, изначальная вероятность (претестовая) этого состояния у рабочего довольно высока и снижается только до 4/5 от этого значения (отношение правдоподобия отрицательного результата теста 0,78, см. раздел 7.4) после единичного отрицательного результата исследования глюкозы в моче. Учитывая симптомы, этому человеку необходимо пройти дополнительное исследование на диабет. Обратите внимание, что, как показывают определения в табл. 7.3, если бы тест был положительным, тогда рабочему нужно было беспокоиться — хотя тест не очень чувствительный (т.е. он не очень полезен для выявления людей с диабетом), он довольно специфичен (т.е. он полезен для исключения людей без заболевания). Студенты часто путают различные измерения теста: чувствительность/ специфичность и прогностическая ценность положительного/отрицательного результатов. Чувствительность и специфичность характеризуют тест в целом, а прогностическая ценность показывает, что результаты данного теста означают для конкретного пациента. Поэтому чувствительность и специфичность обычно больше используются эпидемиологами и специалистами в области общественного здоровья, чья ежедневная работа включает принятие решений о популяциях. Скрининговая маммография (рентгенография молочной железы) может иметь чувствительность 80% и специфичность 90% выявления рака 130
молочной железы. Это означает, что тест выявляет 80% больных раком и исключает 90% женщин, не имеющих рака молочной железы. Но представьте себя врачом или медсестрой, к которой приходит больная за результатами маммографии. Вопрос, который она вам задаст в случае положительного результата теста:« Какова вероятность, что у меня рак?», в случае отрицательного результата: «Какова вероятность того, что теперь я могу забыть о возможности этого заболевания?». Многие пациенты (и к сожалению, многие врачи) полагают, что отрицательная прогностическая ценность теста равна 100%, т.е., если результат «нормальный», они думают, что вероятность заболевания равна нулю. С другой стороны, признания в женских журналах типа «Мне сказали, что у меня рак, но затем тесты доказали, что врачи были неправы» — это примеры женщин, полагающих, что положительная прогностическая ценность теста равна 100%. 7.3. Десять вопросов, которые нужно задать о работе, оценивающей диагностический или скрининговый тест В составлении этих подсказок я основывалась на трех основных источниках: «Руководство к чтению медицинской литературы»3,4 и книга этих же авторов5, более свежая статья в журнале Американской медицинской ассоциации6 и рекомендации Дэвида Мант (David Mant) для оценки диагностических тестов7. Вопрос /. Подходит ли этот тест для моей работы? Это то, что Д. Саккет и его коллеги называют полезностью теста5. Даже если тест на 100% достоверный, точный и надежный, поможет ли он мне? Позволит ли он определить излечимое заболевание? Если да, предпочту ли я его тесту, который привык назначать? Могу ли я (мои пациенты, налогоплательщики) позволить это исследование? Согласятся ли мои пациенты его пройти? Изменит ли он вероятность возможных диагнозов до такой степени, чтобы изменить план лечения? Если ответы на эти вопросы отрицательные, можно отклонить статью, не читая ее дальше аннотации или введения. Вопрос 2. Сравнивался ли тест с «золотым стандартом»? Сначала нужно задать вопрос, сравнивался ли тест с чем-либо вообще. Иногда пишутся статьи (в прошлом они даже публиковались), в которых не делалось ничего, кроме проведения нового теста на нескольких 131
десятках пациентов. Такие упражнения могут давать различные результаты, но конечно же они не подтверждают того, что «высокие» результаты указывают на наличие заболевания, а «низкие» результаты указывают на его отсутствие. Далее следует проверить, заслуживает ли тест, использованный в исследовании, термина «золотой стандарт». Хороший способ оценки «золотого стандарта» — задать вопросы о полезности теста, перечисленные выше. Для многих заболеваний абсолютного «золотого стандарта» диагностического теста, который определенно говорил бы об их наличии или отсутствии, не существует. Неудивительно, что именно для этих состояний наиболее активно ищутся новые методы диагностики. Авторы таких статей разрабатывают комбинацию критериев,, по сравнению с которой оценивают новый тест. Один специфический момент, который нужно проверить, — не используется ли оцениваемый тест (или его разновидность) как способствующий определению «золотого стандарта». Вопрос 3. Включало ли это исследование адекватный состав пациентов? Если вы оценивали новое исследование на холестерин у 100 здоровых студентов-медиков мужского пола, вы не сможете сказать, каковы будут результаты у женщин, детей, пожилых лиц, лиц с заболеваниями, связанными с повышенным уровнем холестерина, и даже у тех, кто никогда не бывал в медицинской школе. Конечно, исследователи не настолько наивны, чтобы для оценки теста формировать такую смещенную группу. Тем не менее обнаружено, что только в 27% опубликованных исследований четко определяется состав пациентов в плане их возраста, пола, симптомов и/или тяжести заболевания и специфических критериев отбора6. Определение состава участников и спектра заболевания имеет важное значение, если тест может быть перенесен в другие условия. Диагностический тест может быть более чувствительным у женщин по сравнению с мужчинами или у молодых по сравнению с пожилыми. По этим же причинам, как отмечают Д. Саккет и соавт., группа, на которой проверяется тест, должна включать лиц с легкой и тяжелой формой заболевания, леченых и нелеченых, а также лиц с другими похожими состояниями1. В то время как чувствительность и специфичность теста постоянны вне зависимости от распространенности состояния, положительная или отрицательная прогностическая ценность во многом зависит от распро- 132
страненности. Поэтому врачи общей практики скептически (часто правильно) относятся к полезности тестов, разработанных исключительно в группе больных в специализированном звене медицинской помощи, в условиях которого тяжесть заболевания обычно выше (см. раздел 4.2). Поэтому же хороший диагностический тест (обычно используемый, когда у пациента имеются некоторые симптомы, предполагающие определенное заболевание) не обязательно является хорошим скрининго- вым тестом (обычно используется у людей без симптомов, исходящих из популяции с более низкой распространенностью заболевания). Вопрос 4. Избегалась ли систематическая ошибка вследствие неполного проведения «золотого стандарта»? Это легко проверить. Вопрос означает: «Каждый ли участник, получавший новый диагностический тест, также получал «золотой стандарт», и наоборот?». Надеюсь, вы не испытываете проблем в определении потенциальной систематической ошибки в работах, в которых «золотой стандарт» проводился только у лиц с уже положительными результатами оцениваемого теста. Кроме того, в такого рода смещениях есть и другие более тонкие аспекты, выходящие за рамки этой книги. Подробное обсуждение этих вопросов можно найти в работе Рид (Read) и соавт.6 Вопрос 5. Избегалась ли систематическая ошибка вследствие ожидания? Систематическая ошибка вследствие ожидания происходит, когда патолог или кто-либо интерпретирующий диагностический материал подсознательно находится под влиянием знания характеристик данного случая; например, наличие боли в груди при интерпретации ЭКГ. В контексте оценки диагностических исследований в сравнении с «золотым стандартом» вопрос означает: «Знали ли лица, интерпретировавшие один из тестов, какие результаты были получены на другом тесте у конкретного пациента? ». Как я объясняла в разделе 4.5, все оценки должны быть «слепыми», т.е. человек, интерпретирующий результаты теста, не дол- Жен получать никаких намеков, какой результат ожидается в данном конкретном случае. Вопрос 6. Показано ли, что тест воспроизводим как у одного, так и у разных наблюдателей? В определенном проценте случаев наблюдатель, проводящий одно и то же исследование в разное время 2 раза у участника, характеристики 133
которого не изменились, получит различные результаты. Это свойство в той или иной степени характерно для всех тестов. Однако тест с воспроизводимостью 99% находится в другой категории по сравнению с тестом, вопроизводимость которого равна 50%. Плохой воспроизводимости диагностического исследования может способствовать ряд факторов: техническое разрешение оборудования, особенности наблюдателя (например, в сравнении цветов), ошибки вычисления и т.д. Обратитесь снова к разделу 4.5, чтобы вспомнить о проблеме согласия между различными наблюдателями. В интерпретации одного и того же результата 2 человека согласятся только в определенном проценте случаев, обычно выражаемом как показатель к (каппа). Если диагностическое исследование дает результаты в виде чисел (например, уровень холестерина в крови в ммоль/л), вопросов согласия между наблюдателями не возникает. Когда тест включает интерпретацию рентгенограмм (пример с маммографией в разделе 4.5) или вопросы о привычках, связанных с употреблением спиртных напитков8, важно подтвердить, что воспроизводимость межйу различными наблюдателями находится на приемлемом уровне. Вопрос 7. Каковы характеристики теста, вытекающие из этой оценки? Даже при соблюдении всех вышеуказанных стандартов диагностический тест может быть бесполезным, если он сам по себе недостоверен, т.е. его чувствительность, специфичность и другие ключевые характеристики слишком низкие. Это — случай с определением глюкозы в моче для выявления диабета (см. раздел 7.2). В конце концов, если тест дает ложноотрицательные результаты примерно в 80%, он скорее вводит врача в заблуждение, нежели помогает в диагностике тогда, когда заболевание действительно имеется. В достоверности скринингового теста не существует абсолютных значений, поскольку приемлемость того или иного теста зависит от состояния, по поводу которого проводится скрининг. Мало кто будет «придираться» к тесту на цветовую слепоту с чувствительностью 95% и специфичностью 80%, но от этого заболевания никто не умирал. Скри- нинговый тест Потри на врожденный гипотиреоидизм, проводимый в Великобритании всем детям вскоре после рождения, имеет чувствительность 99%, но прогностическая ценность его положительного результата всего 6% (другими словами, тест выявляет практически всех детей с этим состоянием за счет высокого показателя ложноположительных резуль- 134
татов)9. Гораздо важнее выявить каждого отдельного ребенка с этим излечимым состоянием, который в противном случае станет психически неполноценным, чем избавить сотни родителей от относительно небольшого стресса, связанного с повторным анализом крови у их ребенка. Вопрос 8. Указаны ли доверительные интервалы для чувствительности, специфичности и других характеристик теста? В разделе 5.5 объясняется, что доверительные интервалы, которые могут быть посчитаны практически для любого количественного результата, отражают возможный диапазон результатов, в пределах которого лежит истинное значение. Посмотрите снова на пример с судьей в разделе 7.1. Если бы он определил еще одного убийцу невиновным, чувствительность его вердикта упала бы с 67 до 33%, а прогностическая ценность положительного результата вердикта — с 33 до 20%. Эта огромная (и неприемлемая) зависимость от одного решения судьи, конечно, связана с тем, что мы оценивали решения судьи только по 10 судебным делам. Доверительные интервалы для характеристик этого судьи настолько широкие, что моя компьютерная программа отказывается их считать! Запомните: чем больше размер выборки, тем уже доверительный интервал. Поэтому на доверительные интервалы особенно важно обращать внимание, если размер выборки в статье небольшой. Формулу для подсчета доверительных интервалов характеристик диагностического теста можно найти в книге М. Гарднера (Gardner) и Д. Альтмана (Altman) «Доверительная статистика»™. Вопрос 9. Получен ли на основании результатов диапазон нормальных значений? Если тест дает недихотомические (непрерывные) результаты, т.е. если он дает количественные значения, а не результат да/нет, кто-то должен сказать, начиная с какого значения результат следует считать аномальным. Многие из нас проводили измерение собственного артериального Давления. Мы хотим знать, нормальный ли у нас результат, а врач называет нам определенное значение, например 142/92. Если в качестве ориентира высокого артериального давления выбрано значение 140/90, мы будем помещены в «аномальную» категорию, хотя риск возникновения У нас проблем практически не отличается от человека с давлением 138/ 88. Многие врачи в таких случаях вполне разумно говорят своим пациентам следующее: «Давление у вас не вполне нормально, однако оно и не находится в опасной зоне. Через 3 мес мы снова проверим ваше дав- 135
ление». Так или иначе, в некоторый момент врач должен принять решение: это давление требует лечения таблетками, а то — нет. Определение зон относительного и абсолютного риска для непрерывных физиологических или патологических параметров — сложная наука, в которой следует принимать во внимание вероятность побочных исходов, на предотвращение которых направлено лечение. Более объективным этот процесс делает использование отношений правдоподобия (см. раздел 7.4). Различные возможные значения слова «нормальный» в диагностических исследованиях увлекательно обсуждаются в книге Д. Сак- кета и соавт.5 Вопрос 10. Поставлен ли данный тест в контекст других потенциальных исследований в диагностической цепочке для данного состояния? В целом, высокое артериальное давление мы лечим на основании только измерения давления (хотя мы стараемся полагаться на серию, а не на одиночное измерение). Сравните это с последовательностью, которую мы используем для диагностики стеноза коронарных артерий. Сначала мы отбираем больных с типичной историей стенокардии напряжения (боли в сердце при выполнении упражнений). Затем мы проводим ЭКГ в покое, ЭКГ с физической нагрузкой и, в некоторых случаях, радио- нуклидное исследование для определения областей с недостаточным поступлением кислорода. Коронарную ангиографию (точное исследование стеноза коронарных артерий) большинству пациентов проводят после того, как были получены аномальные результаты предварительных тестов. Если вы возьмете 100 случайных людей и отправите их на коронарную ангиографию, этот тест может показать различные значения положительной и отрицательной прогностической ценности (и даже различную чувствительность и специфичность), чем в популяции больных лиц, в которой этот тест первоначально оценивался. Это означает, что различные аспекты достоверности коронарной ангиографии как диагностического исследования практически бессмысленны, пока эти цифры не выражаются в терминах их вклада в общую диагностическую последовательность. 7.4. Отношение правдоподобия Вопрос 9 поднимает проблему определения диапазона нормы для непрерывной переменной. В этих условиях результаты теста предпочти- 136
тельнее выражать не как «нормальные» или «патологические», а в терминах вероятности у больного заболевания, если результат теста достигает определенного уровня. Примером может служить использование простатоспецифического антигена (ПСА) для скрининга на рак предстательной железы. У большиства мужчин в крови определяется некоторое значение ПСА(например, 0,5 нг/мл), у большинства мужчин, страдающих раком предстательной железы, уровень ПСА очень высок (выше 20 нг/мл). Уровень ПСА 7,4 нг/мл может быть обнаружен как у абсолютно здорового мужчины, так и у человека с ранней стадией рака. Четкая граница между нормой и патологией отсутствует. Результаты оценки теста ПСА в сравнении с «золотым стандартом» (биопсия предстательной железы) можно использовать для составления серии таблиц типа табл. 7.2. В разных таблицах будут использоваться различные определения аномального результата ПСА для разделения всех лиц на «норму» и «патологию». Из этих таблиц мы можем получить различные отношения правдоподобия, связанные со значениями ПСА, находящимися в различных диапазонах. В этом случае, даже если значение ПСА у нашего пациента окажется в «серой» зоне, мы сможем сказать: «Это исследование не подтвердило рак предстательной железы у больного, но оно повысило (или снизило) вероятность этого диагноза на х». (Как я говорила в разделе 6.3, тест на ПСА не позволяет четко провести различие между наличием и отсутствием рака независимо от того, какое значение используется для отделения нормы от патологии. Другими словами, нет такого значения ПСА, которое давало бы высокое отношение правдоподобия для выявления рака.) Хотя отношение правдоподобия — наиболее сложный для вычисления аспект диагностического теста, он имеет огромную практическую ценность и становится все более предпочтительным способом выражения и сравнения пользы различных тестов. В своем руководстве Д. Сак- кет и соавт.5 объясняют, как отношение правдоподобия может использоваться для подтверждения или исключения конкретного диагноза. Например, если у пациента нет никаких симптомов, я знаю, что вероятность железодефицитной анемии составляет 5%, поскольку в популяции в среднем этим заболеванием страдает 1 человек из 20 [на языке Диагностических исследований это означает, что претестовая (априорная) вероятность анемии у пациента равна распространенности этого состояния и составляет 0,05]12. Далее я провожу диагностическое исследование на анемию — определение уровня ферритина в сыворотке. Результат этого теста делает 137
диагноз анемии более вероятным или менее вероятным. Отношение прав- доподобия для умеренно сниженного уровня сывороточного ферритина (между 18 и 45 пг/л) равно 3, вероятность железодефицитной анемии у пациента с таким результатом вычисляется следующим образом: 0,05 • 3 = 0,15 (15%). Этот показатель называют посттестовой (апостериорной) вероятностью. (Строго говоря, вычисления следует проводить с шансами, а не вероятностями; приведенный здесь простой метод дает примерную оценку в условиях, когда претестовая вероятность низкая. В этом примере претестовая вероятность в 5% соответствует претестовым шансам 0,05/0,95 = 0,053, положительный тест с отношением правдоподобия 3 дает посттестовые шансы 0,158, что соответствует посттестовой вероятности 14%12 0,1- 0,2- 0,5 1 2 5 10 20- 30 40- 50- 60- 70- 80- 90- 95- 99- Претестовая Отношение Посттестовая (априорная) вероятностей (апостериорная) вероятность вероятность Рис. 7.1. Использование отношений правдоподобия для вычисления посттестовой вероятности курения. 138
Рис. 7.1 представляет собой номограмму, адаптированную Д. Сакке- том и соавт. на основе оригинальной статьи Т. Фаган (Т. Fagan)13 для определения посттестовой вероятности на основе претестовой вероятности (распространенности) и отношения правдоподобия.-Линии А, В и С начинаются с претестовой вероятности 25% (распространенность курения среди взрослых лиц в Великобритании) и проходят через отношения правдоподобия соответственно 15, 100 и 0,015 — три различных теста для выявления курения. Тест С фактически позволяет определить, что человек не курит, поскольку положительный результат этого теста ведет к посттестовой вероятности всего 0,5%. И последнее. Как я говорила в начале главы, вы можете использовать диагностические тесты без обращения к отношениям правдоподобия. Я сама долгие годы обходилась без них. Но если вы посвятите полдня освоению этого аспекта клинической эпидемиологии, ваше время будет потрачено не зря. Литература 1. Puavilai G.f Chanprasertyotin S., Sriphrapradaeng A. Diagnostic criteria for diabetes mellitus and other categories of glucose intolerance: 1997 criteria by the Expert Committee on the Diagnosis and Classification of Diabetes Mellitus (ADA), 1998 WHO consultation criteria, and 1985 WHO criteria // Diabetes Res. Clin. Pract. - 1999. - Vol. 44. - P. 21-26. 2. Andersson D.K.G., Lundblad E., Svardsudd К A model for early diagnosis of Type 2 diabetes mellitus in primary health care // Diabet. Med. — 1993.-Vol. 10.-P. 167-173. 3. Jaeschke R., Guyatt G.f Sackett D.L. Users' guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? //JAMA. - 1994. - Vol. 271. - P. 389-391. 4. Jaeschke R., Guyatt G., Sackett D.L. Users' guides to the medical literature. III. How to use an article about a diagnostic test. B. What were the results and will they help me in caring for my patients? // Ibid. — P. 703-707. 5. Sackett D.L., Haynes R.B., Guyatt G.H., Tugwell P. Clinical Epidemiology — a Basic Science or Clinical Medicine. — Lond.: Little, Brown, 1991. -P. 51-68. 6. Read M.C., Lacks M.S., Feinstein A.R. Use of methodological standards in diagnostic test research: getting better but still not good // JAMA. - 1995. - Vol. 274. - P. 645-651. 139
7. Mant D. Testing a test: three critical steps // Critical Reading for Primary Care / Eds R. Jones, A.-L. Kinmonth. - Oxford: Oxford University Press, 1995.-R 183-190. 8. Bush В., Shaw S., Cleary P. et al. Screening for alcohol abuse using the CAGE questionnaire //Am. J. Med. - 1987. - Vol. 82. - P. 231-236. 9. Verkerk P.H.y Derksen-Lubsen G., Vulsma T. et al. Evaluation of a decade of neonatal screening for congenital hypothyroidism in The Netherlands// Ned. Tijdschr. Geneeskd. - 1993. - Vol. 137. - P. 2199- 2205. 10. Gardner MJ.,AltmanD.G. eds. Statistics with confidence: confidence intervals and statistical guidelines. — Lond.: BMJ Publications, 1989. 11. Catalona W.J., Hudson M.A., ScardinoP.T. et al. Selection of optimal prostate specific antigen cutoffs for early diagnosis of prostate cancer: receiver operator characteristic curves//J. Urol. — 1994. — Vol. 152. — P. 2037. 12. Guyatt G.H., Patterson C, All M. et al. Diagnosis of iron deficiency anaemia in the elderly // Am. J. Med. - 1990. - Vol. 88. - P. 205-209. 13. Pagan T.J. Nomogram for Bayes' theorem // N. Engl. J. Med. - 1975. - Vol. 293. - P. 257-261. 14. Anonymous. How good is that test — using the result // Bandolier. - 1996.-Vol.3.-P. 6-8. 140
Глава 8 Исследования, обобщающие другие исследования (систематические обзоры и мета-анализы) 8.1. Когда обзор считается систематическим? Помните заметки, которые вы писали, когда учились в колледже? Помните, как вам приходилось терять время в библиотеке, просматривая каталоги книг и журналов? Просмотрев, казалось бы, подходящий абзац, вы копировали его, а затем, если он в дальнейшем не соответствовал предлагаемой вами теории, выбрасывали его. Этот способ соответствует методам создания журналистского обзора — обобщения первичных исследований без анализа систематическим (т.е. стандартизированным и объективным) образом. Зарплата журналиста зависит от того, сколько он написал, а не от того, сколько он прочитал и насколько критично оценил информацию. Такая ситуация объясняет, почему большинство «новых научных открытий», о которых вы читаете в газетах, быстро опровергаются. В противоположность журналистским обзорам систематические обзоры — обобщения первичных работ, которые: • содержат разделы «цели», «материалы», «методы»; • были проведены в соответствии с точной и воспроизводимой методологией (рис. 8.1 у. Лучшие систематические обзоры, особенно созданные в рамках Кок- рановского сотрудничества (см. раздел 2.11), регулярно пересматриваются и обновляются для включения новых сведений. Большинство медицинских обзоров до сих пор представляет собой журналистские обзоры. Проф. Поль Книпшилд (Paul Knipschild) в замечательной книге под редакцией Я. Чал мерса (Iain Chalmers) и Д. Алтма- на (Douglas Altman) «Систематические обзоры»2 приводит следующий пример. Нобелевский лауреат биохимик Лайнус Полинг (Linus Pauling) отбирал цитаты из медицинской литературы, доказывающие его теорию, что витамин С помогает жить дольше и чувствовать себя лучше3. Книп- 141
Укажите цели обзора рандомизированных контролируемых испытаний и обозначьте критерии включения Найдите испытания, отвечающие критериям включения Изучите характеристики каждого включенного испытания и оцените его методологическое качество На основе критериев включения объясните, почему вы исключили то или иное испытание из систематического обзора Соберите наиболее полный набор данных, по возможности обращаясь к исследователям, проводившим испытания Проанализируйте включенные рандомизированные контролируемые испытания, используя статистический синтез данных (мета-анализ), если это возможно Сравните альтернативные анализы, если это возможно Составьте критическое обобщение обзора, с указанием целей, материалов, методов и результатов Рис. 8.1. Методика составления систематических обзоров рандомизированных контролируемых испытаний. 142
шилд с коллегами использовали систематический метод в поиске доказательств этой теории. Они увидели, что лишь 1 —2 исследования подтверждали, что витамин С защищает от простуды; в гораздо большем числе исследований польза от применения витамина С не выявлена. Возможно, Лайнус Полинг не хотел сознательно ввести читателей в заблуждение, однако его стремление поддержать свою идею перевесило научную объективность. Он не знал о систематической ошибке вследствие отбора, которая влияла на его выбор статей. Проф. Синтия Мюл- роу (Cynthia Mulrow) из Техасского университета (США) и другие исследователи проделала большую работу по анализу попыток поиска в литературе «доказательств», подтверждающих любимую автором теорию4,5. С. Мюлроу, а также Я. Чалмерс из британского Кокрановского центра, Питер Гетче (Peter Gotzsche) и Энди Оксман (Andy Oxman) из Североевропейского Кокрановского центра (см. раздел 2.11) заслуживают благодарности: они смогли убедить медицинское сообщество в том, что ошибочные вторичные исследования, например журналистские статьи, не менее опасны, чем ошибочные первичные исследования. Некоторые преимущества систематических обзоров перечислены во врезке 8.1. Высокопрофессиональные эксперты, погруженные в свою область на протяжении многих лет и составившие свое мнение о проблеме, меньше способны к написанию объективных обзоров, чем новички6. Это бы не было проблемой, если мнение экспертов совпадало с результатами независимых систематических обзоров. К сожалению, во многих случаях этого не происходит7. Эти работы до сих пор широко цитируются людьми, стремящимися заменить всех специалистов (таких как кардиологов) на экспертов в поиске и критической оценке статей любой направленности. Однако за последнее время никто не воспроизвел эти результаты. Другими словами, мы должны доверять тем экспертам, которые основывают свои рекомендации на тщательной оценке доказательств. Если вы собираетесь нанять специалистов для поиска доказательств преимуществ антикоагулянтов при фибрилляции предсердий, вам следует пригласить как эксперта по систематическим обзорам, так и специалиста в области сердечных аритмий. Будем справедливы к Лайнусу Полингу: он указал на некоторые исследования, оспаривающие его теорию о защитных свойствах витамина С. Однако он посчитал, что эти исследования имеют «методологические изъяны». Как указывает П. Книпшилд, Л. Полинг включил в свой анализ множество работ. Их результаты совпадали с его теорией и он, воз- 143
Врезка 8.1. Преимущества систематических обзоров • Точные методы ограничивают вероятность систематической ошибки при определении и исключении статей • Выводы поэтому более надежны и точны • Медицинские работники, исследователи и организаторы легко получают доступ к большим объемам информации • Устраняется временной разрыв между научным открытием и внедрением эффективного диагностического или лечебного вмешательства (см. главу 12) • Результаты различных испытаний можно формально сравнивать для установления обобщаемости и устойчивости (отсутствия гетерогенности) результатов (см. раздел 8.4) • Причины гетерогенности (несовпадение результатов различных исследований) можно установить и предложить новые гипотезы об определенных подгруппах (см. раздел 8.4) • Количественные систематические обзоры (мета-анализов) повышают точность результата (см. разделы 4.6 и 8.3) можно подсознательно, менее критично отнесся к недостаткам дизайна этих исследований. Я привела этот пример для иллюстрации того, что при составлении систематического обзора надо не только проводить тщательный и объективный поиск статей, но и выбирать четкие критерии, исключающие исследование из анализа, независимо от его результатов. Другими словами, исключать исследование из анализа надо не потому, что во всех других работах показаны другие результаты (см. раздел 8.4), а потому, что при любых результатах объекты или методы исследования не соответствуют вашим критериям включения (см. раздел 3.1). 8.2. Оценка систематических обзоров Вопрос 1. Отвечает ли систематический обзор на важный клинический вопрос? В главе 3 я объясняла важность определения клинического вопроса, на который отвечает статья о клиническом испытании или каком- либо другом первичном исследовании. Я назвала эту главу «С чего на- 144
чать», поскольку неудачная попытка понять вопрос, на который отвечает статья, заставляет усомниться во всей работе. Формулировка вопроса, на который требуется однозначный ответ, возможно, еще более важна (и чаще упускается!) при написании обычных обзоров первичных исследований. Если вам доводилось писать обзоры, редакционные заметки или комментарии, объединяющие результаты нескольких клинических исследований, вы знаете, как легко отклониться от основной темы и увлечься описанием аспектов, которые вы и не собирались упоминать. Вопрос в систематическом обзоре должен быть определен предельно четко, поскольку автору предстоит дать однозначные ответы (да или нет) относительно включения в него подходящих работ и исключения работ, не соответствующих требованиям. Вопрос, защищают ли антикоагулянты пациентов с фибрилляцией предсердий от инсульта, звучит очень конкретно, пока вы не начнете изучать исследования, которые можно включить в обзор. Включать ли в понятие «фибрилляция предсердий» ревматическую и неревматическую формы (которые связаны с различными рисками инсульта), преходящую фибрилляцию (например, у моего дедушки такая аритмия начиналась после того, как он выпивал кофе; в связи с этим он всегда рассматривался как «неясный случай»)? Какой тип инсульта имеется в виду: ишемический (вызванный закупоркой сосуда мозга) или геморрагический (вызванный разрывом сосуда)? Говоря о разрыве кровеносного сосуда, нужно ли оценивать побочные эффекты антикоагулянтов в сравнении с возможной пользой? Сравнивать ли истинные антикоагулянты, например гепарин или вар- фарин, с плацебо или с другими препаратами, снижающими свертывающую способность крови, как, например, аспирин и аналоги? Наконец, нужно ли включать в обзор исследования, проведенные на пациентах, уже перенесших в прошлом инсульт или транзиторные ише- мические атаки (инсультоподобное состояние, но с улучшением состояния в течение 24 ч). Или обзор должен распространяться только на исследования, проведенные на больных без таких факторов риска повторного инсульта? Так сформулированный нами изначально «простой» вопрос становится неразрешимым — мы должны уточнить его следующим образом. «Оценка эффективности и безопасности варфариноподобных анти- коагулянтов в качестве вторичной профилактики (т.е. после инсульта или транзиторной ишемической атаки) у больных с фибрилляцией предсердий неревматического генеза: сравнение с плацебо»8. 145
Вопрос 2. Проводился ли всесторонний поиск в соответствующих базах данных и изучались ли другие важные источники информации? На рис. 8.1 показано, что одно из отличий систематического обзора от журналистской статьи состоит в том, что автор обязан указать источники информации и способы ее получения. В главе 2 я говорила, что поиск статей в базе данных Medline является тонкой наукой, и, даже несмотря на хороший поиск, можно пропустить важную статью. Чтобы этого не происходило, необходимо проводить поиск также в других базах данных, перечисленных в разделе 2.10. В процессе поиска статей следует избегать лингвистического империализма — это важно как с научной, так и с политической точки зрения. Выражениям типа «Eine Placebo-kontrolierte Doppel-blindstudie» (нем.) или «une etude randomisee a double insu face au placebo» (фр.) следует уделять такое же внимание, как и фразе «двойное слепое рандомизированное контролируемое испытание»9. Более того, при статистическом обобщении результатов (т.е. при мета-анализе) может оказаться необходимым контакт с авторами первичных испытаний для получения неопубликованных данных о пациентах (см. раздел 8.3). Даже после проведения всех вышеперечисленных действий можно сказать, что автор обзора только начал поиск материалов. Пол Книпшилд и его коллеги утверждают, что в результате поиска в электронных базах данных исследований по профилактике простуды с помощью витамина С было найдено всего 22 статьи из 61. Остальные 39 были найдены вручную в базе данных Index Medicus (14 работ, не выявленных предыдущим поиском), при поиске по ссылкам статей, найденных в базе Medline (еще 15 работ), при поиске по ссылкам, указанным в ссылках, найденных в базе Medline (9 работ), и еще при одном поиске по ссылкам из работ, найденных в результате предыдущего поиска (выявлено еще 1 исследование, не найденное ни в одном из предыдущих поисков). Если автор обзора не следовал точно такому плану поиска, его не следует судить строго. П. Книпшилд и его коллеги обнаружили, что только одно исследование, отсутствующее в Medline, соответствовало обязательным критериям методологического качества и было включено в систематический обзор по эффективности витамина С для профилактики простуды. Анализ «серой» литературы (врезка 8.2) может иметь большую относительную значимость при поиске вне основных медицинских направлений, например работ по физиотерапии или альтернативной медицине. 146
Врезка 8.2. Список источников информации для систематического обзора • База данных Medline • Кокрановский регистр контролируемых клинических испытаний (см. раздел 2.11) • Другие медицинские и околомедицинские базы данных (см. раздел 2.10) • Литература на иностранных языках • «Серая литература» (тезисы, доклады, нерецензируемые журналы, данные фармацевтической промышленности) • Ссылки, указанные в первичных источниках (а также ссылки из ссылок и т.д.) • Другие неопубликованные источники, известные профессионалам в данной области (поиск через личные контакты) • Сырые данные из опубликованных испытаний (поиск через личные контакты) Вопрос 3. Проводилась ли оценка методологического качества и рассматривались ли отдельные исследования в соответствии с этой оценкой? В главах 3 и 4, а также в Приложении 1 представлены списки вопросов, при помощи которых можно решить, отвергать ли статью по причине низкого методологического качества. Вне критики методологического качества находится всего лишь около 1 % испытаний. Возникает практический вопрос: как гарантировать, что маленькие, но прекрасно спланированные исследования привлекут заслуженное внимание по сравнению с большими исследованиями с правильными, но в большей степени подверженными критике методами? Методологические недостатки, делающие результаты исследования недостоверными, часто бывают общими (т.е. не зависят от темы исследования; см. Приложение 1). Тем не менее имеются конкретные методологические особенности, которые позволяют все систематические обзоры разделить на высокого, среднего и низкого качества. Одной из задач при написании обзора является составление списка критериев общих и частных аспектов качества, по которым будут оцениваться статьи. Теоретически можно подсчитать суммарный балл, отражающий «общее методологическое качество». На практике при составлении таких рейтингов необходимо соблюдать осторожность, поскольку «золотого 147
Врезка 8.3. Определение «веса» исследования в систематическом обзоре Каждое исследование нужно оценить с позиций: • методологического качества — степень, в которой дизайн исследования предотвращает систематические ошибки (смещения) (см. раздел 4.4) • точности — мера вероятности случайных ошибок (обычно отражается шириной доверительного интервала вокруг результата) • внешняя валидность — мера обобщаемости результатов или применимости к конкретной популяции (Дополнительные аспекты «качества», такие, как научная важность, клиническая важность, литературное качество, справедливо придают больший вес работам в журнальных редакциях и среди рецензентов; но они имеют меньшее отношение к систематическим обзорам после того, как исследуемый вопрос сформулирован. стандарта» «истинного» методологического качества научной работы не существует11 и «общие оценки не только недостоверны, но и практически ненадежны»12,13. Различные группы Кокрановского сотрудничества занимаются разработкой как общих для всех, так и специфичных для конкретных областей способов оценки качества исследовательских работ»14"16. В настоящее время менее половины всех публикуемых мета-анализов содержат воспроизводимые критерии качества работ, включенных в анализ и исключенных из него17. Вопрос 4. Насколько чувствительны результаты к смещению в зависимости от способа проведения систематического обзора? Если вы не понимаете смысла этого вопроса, обратитесь к шутливой статье Карла Кунсела (Carl Counsell) и его коллег в рождественском выпуске Британского медицинского журнала. В этой статье они «доказывают» абсурдную связь между игрой в кости и острым инсультом18. Авторы представили серию искусственных экспериментов по бросанию кубиков, из которой сделали вывод, что броски красных, белых или зеленых кубиков соответственно представляют различные виды терапии острого инсульта. В целом «испытания» не показали существенной пользы этих трех видов лечения. Однако была представлена имитация весьма правдоподобных ситуаций, возникающих в процессе мета-анализа. Исключение некоторых «нежелательных» работ из-за систематической ошибки вслед- 148
ствие публикации (см. раздел 3.3), анализ подгрупп, исключивший данные по броскам красного кубика (так как оказалось, что броски красного кубика опасны), и другие произвольные исключения на основании несоответствия «методологическому качеству» привели к выводу о пользе «терапии игрой в кости» при остром инсульте. Конечно, вы не можете лечить пациентов с острым инсультом игрой в кости. Но если бы эти имитированные результаты имели отношение к реальным медицинским проблемам (например, какие группы женщин в постменопаузе должны получать гормонозаместительную терапию, во всех ли случаях ягодичного предлежания следует проводить кесарево сечение), то как вы обнаружите эти незаметные смещения? Ответом должно стать изучение типа «что, если». Что, если бы авторы систематического обзора изменили критерии включения? Что, если бы они исключили неопубликованные работы? Что, если бы оценка качества работ проводилась по-другому? Что, если бы были включены (или исключены) работы более низкого методологического качества? Что, если бы всех неучтенных пациентов сочли умершими (или вылеченными)? Этот анализ называют анализом чувствительности. Если вы видите, что такая игра с данными не вносит вклада в суммарный результат или этот вклад незначителен, заключение обзора можно считать надежным. Если же при игре с данными ключевые результаты систематического обзора меняются, тогда выводы следует воспринимать более осторожно, а к изменению клинической практики в свете таких результатов нужно относиться более критически. Вопрос 5. Были ли количественные результаты интерпретированы здраво и в свете более широких аспектов данной проблемы? В следующем разделе показано, что приведенными в систематическом обзоре данными и графиками легко впечатлиться. Однако любой количественный результат, каким бы точным, «значимым» и неопровержимым он ни был, следует рассматривать в контексте простого (и, к сожалению, часто слишком общего) вопроса, которому посвящен обзор. Врач должен решить, как этот количественный результат, значимый или незначимый, повлияет на лечение его пациента. При написании или оценке систематического обзора чрезвычайно важно определить внешнюю достоверность включенных исследований (см. врезку 8.3). Точное, высокого методологического качества исследование с впечатляющими результатами может, например, относиться к Пациентам моложе 60 лет; следовательно, его результаты нельзя рас- 149
пространять на людей, например, старше 75 лет и т.д. Как отмечал проф. сэр Джон Гримли Эванс (John Grimley Evans), включение в систематический обзор неподходящих статей ведет к абсурду и снижает надежность вторичного исследования (см. раздел 9.1)19. 8.3. Мета-анализы для людей, не занимающихся статистикой Весь страх и ненависть по отношению к доказательной медицине у студентов, врачей и потребителей медицинских услуг можно сосредоточить в одном слове — «мета-анализ». Мета-анализ — статистический синтез количественных результатов нескольких испытаний, посвященных одному и тому же вопросу. Этот термин дает статистикам возможность выглядеть по сравнению с вами на две головы выше. Сначала они поражают вас статистическими тестами, используемыми в отдельных статьях. Затем используют новую серию статистических методов, чтобы получить показатели отношения шансов, доверительных интервалов и статистической значимости. В главе 5 я признавалась в том, что быстро впадаю в панику при виде соотношений, знаков квадратных корней и полузабытых греческих букв. Однако, прежде чем отнести мета-анализ к области новомодных технологий, которые вы никогда не поймете, запомните две вещи. Первое: составитель мета-анализов может выглядеть причудливо, но он на вашей стороне. Людям, не занимающимся статистикой, обычно проще понять хороший мета-анализ, чем набор первичных исследовательских статей, на основании которых он произведен (причины я объясню позже). Второе: статистические методы, используемые при проведении мета- анализов, точно такие же, как при других анализах данных, просто некоторые из чисел больше. Международная группа утвердила стандартные требования для мета-анализов (QUOROM20, аналогичные требованиям CONSORT для рандомизированных контролируемых испытаний, о которых упоминалось в главе 4). При проведении мета-анализа после первых этапов составления любого систематического обзора (см. рис. 8.1) нужно выбрать важнейший исход лечения для оценки результатов первичных испытаний. Например, в испытаниях, посвященных индивидуальному подбору химиотерапии при раке молочной железы, некоторые авторы указывали общую смертность (т.е. общее число лиц, умерших к определенному времени) к 3-му и 12-му месяцу, другие приводили данные по 6-, 12-месячной и 5-летней смерт- 150
ности. Для проведения мета-анализа скорее всего будет выбрана 12-месячная смертность, поскольку этот параметр указан во всех работах. Однако составитель мета-анализа может решить, что 3-месячная смертность клинически более значима, и тогда эти данные будет необходимо запрашивать у авторов всех упомянутых испытаний. В дополнение к этому составитель мета-анализа проводит работу по анализу критериев исключения, размера выборки, исходных характеристик пациентов, частоты выпадения пациентов из исследования, результатов первичных и вторичных конечных точек всех включенных исследований. Если эта работа выполнена правильно, то можно сравнивать как методы, так и результаты двух разных исследований. Подобные таблицы выглядят очень сложно, но они позволяют уменьшить объем работы по изучению методов, используемых в каждом исследовании, и сравнению результатов, отображенных одним автором в виде таблиц, а другим — в виде запутанных схем и гистограмм. В настоящее время результаты мета-анализов обычно представляются в стандартной форме. Частично это обусловлено тем, что составители мета-анализов для вычислений часто пользуются компьютерными программами21. Эти программы включают набор графиков, отображающих результаты, как показано на рис. 8.2. Я представила собранные данные (с разрешения авторов) по отношениям шансов в 8 рандомизированных контролируемых испытаниях, в каждом из которых сравнивалась имплантация шунта в коронарную артерию (GABG) с чрескожной коронарной ангиопластикой (РТСА) для лечения тяжелой стенокардии22. Данные представлены в формате одной из распространенных программ в виде графика (иногда его называют «древесным графиком» или «блоббограм- мой»). Первичным (основным) показателем исхода в данном мета-анализе служила смертность или возникновение инфаркта миокарда в течение года. В левой части рисунка одно под другим перечислены 8 испытаний, обозначенные сокращениями (например, CABRI). Горизонтальные линии, соответствующие кавдому испытанию, показывают относительный риск смерти или инфаркта миокарда в течение первого года у пациентов, рандомизированных (т.е. случайно отобранных) в группу РТСА, по сравнению с пациентами, рандомизированными в группу CABG. Отметка посредине каждой из линий означает наилучшую оценку разницы между группами (оценку пользы CABG по сравнению с РТСА с точки зрения количества спасенных жизней). Протяженность линии показывает 95% Доверительный интервал этой оценки (см. раздел 5.5). Линия по центру 151
| /^ MetaView Version 2.0 тшщШ^^Ш^ф, ■Comparison: CAB_ vs РТСА ДОшсоше: Death or heart аШ ■ Study (Unsorted) I CA8RI ■ RITA ■ GABi ■ Toulouse ■ MASS В Lausarwe В Eraci ■Total (ft=8) 95%Ct Bz-test «or overall effect Bchi-squared for homogeneity Bdf ick in first year Expt Obs 43 34 24 10 6 5 6 8 136 «Д Expt Total 541 510 198 182 76 72 68 63 1710 0.35 11,48 7 £& *£2 Ctrl Obs 29 31 33 18 6 1 2 7 127 SiMiJi;! Obs Total 513 501 194 177 76 70 66 64 1661 Wgt % 28 25 20 11 5 2 3 6 100 Help/X | ёШ^ш^^^^^^^Ш _______ ^ ■ Рис. 8.2. Отношения шансов в 8 рандомизированных контролируемых испытаниях по сравнению имплантации шунта в коронарную артерию (GABG) с чрескожной коронарной ангиопластикой (РТСА), представленное в формате MetaView. рисунка — «линия отсутствия эффекта»; в данном случае она соответствует относительному риску (RR) 1,0. Другими словами, если горизонтальная линия ни одного из исследований не пересекает линию отсутствия эффекта, то существует 95% вероятность действительных различий между группами. Как обсуждалось в разделах 4.6 и 5.5, если доверительный интервал результата (горизонтальная линия) пересекает линию отсутствия эффекта (т.е. вертикальную линию), это означает что либо нет достоверных различий между методами лечения, либо размер выборки недостаточен для определения истинного результата. В различных испытаниях, сравнивавших РТСА и CABG, показатели относительного риска лежат в интервале от 0,5 до 5,0, а доверительные интервалы в некоторых испытаниях настолько велики, что не помещаются на рисунке. Теперь начинается самое интересное в мета-анализе. Обратите внимание на ромбик, расположенный под всеми горизонтальными линиями. Он отражает обобщенные данные по всем 8 испытаниям (общий относительный риск РТСА: CABG = 1,08) с новым, более узким доверитель- 1*9
ным интервалом этого относительного риска (0,79-1,50). Поскольку ромбик четко перекрывает линию отсутствия эффекта, можно сказать, что между двумя видами лечения нет разницы в воздействии на частоту первичного исхода (смерть или инфаркт миокарда в течение первого года). В данном примере в каждом из 8 испытаний делалось предположение об отсутствии значимой разницы. Однако ни в одном из испытаний размер выборки не был достаточным для того, чтобы быть уверенным в этом отрицательном результате. Имейте в виду, что этот маленький ромбик не означает, что каждому пациенту со стенокардией можно назначить как РТСА, так и CABG. Этот показатель имеет гораздо более ограниченное значение — средний пациент в испытаниях, представленных в мета-анализе, имеет одинаковый шанс первичного исхода (смерть или инфаркт миокарда в течение года) независимо от того, в какую группу он был случайным образом определен при проведении испытания. В статье С. Покока и его коллег22 вы увидите, что группы различаются по распространенности стенокардии и по необходимости оперативного лечения в дальнейшем, после первоначальной процедуры. Выбирая метод лечения, нужно также учитывать, как пациент оценит и перенесет большую операцию на сердце (CABG) по сравнению с относительно небольшим вмешательством (РТСА). Во многих мета-анализах «незначимые» испытания (т.е. те, в которых не обнаружено значимых различий между группами лечения и контроля) вносят вклад в результат, который является статистически значимым. Знаменитый пример такой ситуации демонстрирует логотип Кокрановского сотрудничества (рис. 8.3). Это мета-анализ 7 испытаний эффекта назначения стероидов беременным при преждевременных родах. Только в 2 из 7 испытаний была показана статистически значимая польза (по показателю выживаемости новорожденных), но повышение точности (т.е. сужение доверительных интервалов) в обобщенных результатах, отражаемое более узким ромбиком по сравнению с линиями отдельных испытаний, доказало эффективность данного вмешательства. Из данного мета-анализа следовало, что назначение стероидов матерям снижает вероятность смерти новорожденных на 30—50% по сравнению с контролем. Этот пример будет обсуждаться далее в разделе 12.1 в связи с изменением поведения врачей. Если вам до сих пор интересно читать о мета-анализах результатов клинических испытаний, вы можете ознакомиться с изощренными технологиями проведения мета-анализов данных на отдельных пациентах, позволяющими получить более точную оценку эффекта23. Вам также бу- 153
THE COCHRANE COLLABORATION Рис. 8.З. Логотип Кокрановского сотрудничества. дет полезна серия прекрасных обзоров по мета-анализам, опубликованная несколько лет назад в Британском медицинском журнале24-29. Специальное приложение к этой серии описывает программы, предназначенные для проведения мета-анализов. Это приложение опубликовано только в Интернете21. 8.4. Объяснение гетерогенности В повседневной речи «гомогенный» значит «одинакового состава», а «гетерогенный» — «состоящий из множества различных частей». На языке мета-анализа гомогенность означает, что результаты каждого отдельного испытания сочетаются с результатами других. Гомогенность можно оценить одним взглядом, когда результаты представлены в формате, как на рис. 8.2 и 8.4. На рис. 8.2 все горизонтальные линии перекрываются друг с другом. Говоря статистическим языком, эти исследования гомогенны. И наоборот, на рис. 8.4 видно, что линии некоторых испытаний не перекрывают друг друга. Можно сказать, что эти исследования гетеро- генны. Теперь, возможно, вы понимаете (особенно, если вы уже прочитали раздел 5.5 о доверительных интервалах), что называть ряд исследований гетерогенным на основании того, перекрываются ли их доверительные интервалы, можно лишь условно, поскольку сами доверительные интервалы условны (могут быть установлены 90, 95, 99% доверительные интервалы). Точно установить, являются ли испытания гетерогенными, можно путем применения более точных статистических методов, чем просто изучение блоббограммы линейкой. Одним из наиболее часто используемых методов является вариант критерия х2 (см. табл. 5.1), поскольку 154
British Regional Heart BUPA Gothenburg MRFIT screenees Renfrew-Paisley Whitehall Honolulu Central Sweden Israeli Проект Pooling 0 10 20 30 40 Снижение риска, % Рис. 8.4. Снижение риска сердечно-сосудистых заболеваний путем снижения концентрации холестерина в крови30. вопрос, на который требуется ответ, звучит так: «существует ли между результатами испытаний больший разброс, чем тот, что можно объяснить случайностью?». Статистика х2 Для гетерогенности групп подробно объясняется С. Томпсоном (Simon Thompson)30, предлагающим следующее практическое правило: критерий х2 в среднем имеет значение, равное числу степеней свободы (в данном случае число испытаний в мета-анализе минус один), поэтому, значение х2, равное 7,0, для набора из 8 испытаний показывает отсутствие доказательств статистической гетерогенности. [В действительности это также не доказывает, что испытания гомогенны, поскольку критерий х2 имеет малую мощность (см. раздел 4.6) для выявления небольших, но важных уровней гетерогенности.] Значение х2 много большее, чем число испытаний в мета-анализе, свидетельствует о том, что испытания отличаются друг от друга. Это могут быть известные различия в методологии (например, авторы использовали различные опросники для оценки симптомов депрессии) или известные клинические различия между участниками испытаний (например, одним из центров является специализированная больница, в которую направляют самых тяжелых больных). Между испытаниями также могут быть неизвестные или неуказанные различия, о причинах которых составитель мета-анализа может только догадываться, пока не выяснит Деталей у авторов первичных испытаний. Запомните: демонстрация ста- 155
тистической гетерогенности является математической процедурой, это работа статистиков; объяснение причин этой гетерогенности (т.е. поиск и выявление клинической гетерогенности) — задача интерпретации результатов, ее решение требует воображения, здравого смысла, клинического и исследовательского опыта. На рис. 8.4, опубликованном с разрешения С. Томпсона30, показаны результаты 10 испытаний по снижению уровня холестерина. Результаты представлены в виде процента снижения риска сердечно-сосудистых заболеваний, связанного со снижением концентрации холестерина в сыворотке крови на каждые 0,6 ммоль/л. Горизонтальные линии обозначают 95% доверительный интервал каждого результата — даже не зная, что значение х2 равно 127, видно, что испытания имеют высокую гетерогенность. Простое вычисление «среднего значения» по результатам испытаний, указанных на рис. 8.4, будет неправильным. Составитель мета-анализа должен обратиться к первичным исследованиям и спросить: «В чем отличие испытания А от испытания В; что общего между испытаниями С, D и Н, линии результатов которых расположены на одном краю рисунка?». В этом примере коррекция участников испытаний по возрасту уменьшила значение х2 со 127 до 45. Другими словами, «несовместимость» результатов этих испытаний может объясняться тем, что определенное вмешательство (специальная диета), снижающее уровень холестерина, с гораздо большей вероятностью предотвратит инфаркт миокарда у 45-летних, чем у 85-летних. Это является основой недовольства проф. Г. Эйзенка (Hans Eysenck), автора энергичной и занимательной критики в адрес мета-анализов31. Весь мир делится на тех, кто объединяет, и тех, кто разъединяет. Г. Эй- зенк относится к последней группе. Его чувство качественного и определенного (см. главу 11) оскорбляется объединением исследований, проведенных в разных популяциях, в разное время, в разных местах и по разным причинам. Замечания Эйзенка основаны на печально известном мета-анализе, показавшем (ошибочно) значимую пользу внутривенного введения раствора магнезии во время инфаркта миокарда. В более позднем мегаис- пытании, включавшем 58 000 пациентов (ISIS-4), какая-либо польза не обнаружена. Ошибочное заключение предыдущего мета-анализа было объяснено систематической ошибкой вследствие публикации положительных результатов, методологическими недостатками маленьких испытаний и клинической гетерогенностью32,33. [Подробнее о преимуществах 156
и недостатках мета-анализа по сравнению с мегаиспытанием см. в статье ЛеЛорера (LeLorier) в журнале «New England Journal of Medicine»34.] Математическая наивность Эйзенка смущает: «Если медицинское вмешательство дает настолько непонятный эффект, что для его прояснения требуется мета-анализ, то я не хотел бы применять это вмешательство по отношению к себе». Тем не менее я испытываю некоторую симпатию к его аргументу. Я сама отношусь к «разъединяющим» и всем составителям мета-анализа рекомендую ознакомиться с претензиями Эйзенка. Недавно я сама бросила вызов С. Гриффину (Simon Griffin), опубликовавшему мета-анализ первичных испытаний по контролю сахарного диабета35. Хотя я высоко ценю Симона Гриффина как ученого, я уверена, что математическое суммирование совершенно разных исследований, посвященных немного различающимся вопросам, необоснованно. В комментарии к его статье я написала: «4 яблока и 5 апельсинов остаются 4 яблоками и 5 апельсинами, а не 9 яблоко-апельсинами»36. Однако Симон считает себя «объединителем», и есть множество людей умнее меня, которые уверены в корректности этого анализа. Несмотря на то, что каждый из нас сохранил свою точку зрения, мы остаемся друзьями. Материалы, посвященные интеграции гетерогенных данных в систематическом обзоре, приведены в статье Синди Мулроу (Cindy Mulrow) и соавт.37. Литература 1. Reproduced from The Cochrane Centre brochure, UK Cochrane Centre, Summerrown Pavilion, Middle Way, Oxford 0X2 7LG, UK. 2. Chalmers /., Altman D.G. (eds). Systematic Reviews. — Lond.: BMJ Publications, 1995. 3. Pauling L. How to Live Longer and Feel Better. — N.Y.: Freeman, 1986. 4. Mulrow C. The medical review article: state of the science // Ann. Intern. Med. - 1987. - Vol. 106. - P. 485-488. 5. Cook D.J., Mulrow CD., Haynes KB. Systematic reviews: synthesis of best evidence for clinical decisions // Ibid. - 1997. - Vol. 126. - P. 376-380. 6. Oxman A.D., Guyatt G.H. The science of reviewing research // Ann. N.Y. Acad. Sci. - 1993. - Vol. 703. - P. 125-131. 157
7. Antman EM., Lau J., Kupelnick B. et al. A comparison of results of meta-analyses of randomized controlled trials and recommendations of clinical experts // JAMA. - 1992. - Vol. 268. - P. 240-248. 8. Koudstaal P. Secondary prevention following stroke or TLA in patients with non-rheumatic atrial fibrillation: anticoagulant therapy versus control // Cochrane Database of Systematic Reviews, updated 14 February 1995, Issue 2. — Oxford: The Cochrane Library, 2000. 9. Knipschild P. Some examples of systematic reviews // Systematic Reviews / Eds I. Chalmers, D.G. Altman. — Lond.: BMJ Publications, 1995. -P. 9-16. 10. Knipschild P. Searching for alternatives: loser pays // Lancet. - 1993. - Vol. 341. - P. 1135-1136. 11. Oxman A. (ed). Preparing and maintaining systematic reviews // Cochrane Collaboration Handbook, section VI. — Oxford: Update Software, 2000. 12. Emerson J.D., Burdick E., Hoaglin D.C. et al. An empirical study of the possible relation of treatment differences to quality scores in controlled randomized clinical trials // Control. Clin. Trials. — 1990. — Vol. 11. — P. 339-352. 13. MoherD., JadadA.R., TugwellP. Assessing the quality of randomized controlled trials: current issues and future directions // Int. J. Technol. Assess. Health Care. - 1996. - Vol. 12. - P. 195-208. 14. Bern L., Rennie D. The Cochrane Collaboration: preparing, maintaining, and disseminating systematic reviews of the effects of health // JAMA. - 1995. - Vol. 274. - R 1935-1938. 15. Garner P., HetheringtonJ. Establishing and supporting collaborative review groups // Cochrane Collaboration Handbook, section II. — Oxford: Update Software, 2000. 16. Verhagen A.P., de Vet H.C., de Bie R.A. et al. The Delphi list: a criteria list for quality assessment of randomized clinical trials for conducting systematic reviews developed by Delphi consensus // J. Clin. Epidemiol. - 1998.-Vol. 51.-P. 1235. 17. MoherD., Cook D.J., JadadA.R. et al. Assessing the quality of reports of randomized trials: implications for the conduct of meta-analyses // Health Technol. Assess. - 1999. - Vol. 3, No. 12. Available in full text on http:// www.hta.nhsweb.nhs.uk/. 18. Counsell C.E., Clarke M.J., Slattery J., Sandercock P.A.G. The miracle of DICE therapy for acute stroke: fact or fictional product of subgroup analysis? // BMJ. - 1994. - Vol. 309. - P. 1677-1681. 158
19. Grimley Evans J. Evidence based and evidence-biased medicine // Age Ageing. - 1995. - Vol. 24. - P. 461-463. 20. MoherD., Cook D.J., Eastwood S. et al. For the QUOROM Group. Improving the quality of reports of meta-analyses of randomized controlled trials: the QUOROM statement // Lancet. - 1999. - Vol". 354. - P. 1896- 1900. Available in full text onhttp://www.thelancet.com/newlancet/eprint/ 2/index.html 21. Egger M., Davey Smith G. Meta-analysis software. Electronic publication by BMJ to supplement series on meta-analysis (see references 24-29 below), http://bmj.com/archive/7126/7126ed9.htm 22. Pocock S.J., Henderson R.A., Richards A.P. et al. Meta-analysis of randomized trials comparing coronary angioplasty with bypass surgery // Lancet. - 1995. - Vol. 346. - P. 1184-1189. 23. Clarke M J., Stewart LA. Obtaining data from randomized controlled trials: how much do we need for reliable and informative meta-analyses? // Systematic Reviews / Eds I. Chalmers, D.G. Altman. — Lond.: BMJ Publications, 1995. - P. 37. 24. Egger M., Davey Smith G. Meta-analysis: potentials and promise // BMJ. - 1997. - Vol. 315. - P. 1371-1374. 25. Davey Smith G., Egger M., Phillips A. Meta-analysis: principles and procedures // BMJ. - 1997. - Vol. 315. - P. 1533-1537. 26. Davey Smith G., Egger M.f Phillips A. Meta-analysis: beyond the grand mean? // Ibid. - P. 1610-1614. 27. Egger M., Davey Smith G. Meta-analysis: bias in location and selection of studies // Ibid. - 1998. - Vol. 316. - P. 61 -66. 28. Egger M., Schneider M., Davey Smith G. Meta-analysis: spurious precision? Meta-analysis of observational studies // Ibid. — P. 140. 29. Davey Smith G., Egger M. Meta-analysis: unresolved issues and future developments // Ibid. - P. 221-225. 30. Thompson S.G. Why sources of heterogeneity in meta-analysis should be investigated // Systematic Reviews / Eds I. Chalmers, D.G. Altman. — Lond.: BMJ Publications, 1995. - P. 48-63. 31. Eysenck HJ. Problems with meta-analysis // Systematic Reviews / Eds. I. Chalmers, D.G. Altman. - Lond.: BMJ Publications, 1995. - R 64-74. 32. Anon. Magnesium, myocardial infarction, meta-analysis and mega- trials // Drug Then Bull. - 1995. - Vol. 33. - P. 25-27. 33. Egger M., Davey Smith G. Misleading meta-analysis: lessons from <<:an effective, safe, simple» intervention that wasn't // BMJ. — 1995. — vol. 310. - P. 752-754. 159
34. LeLorierJ., Gregoire G., Benhaddad A. et al. Discrepancies between meta-analysis and subsequent large randomized controlled trials // N. Engl. J. Med. - 1997. - Vol. 337. - P. 536-542. 35. Griffin S. Diabetes care in general practice: meta-analysis of randomized controlled trials // BMJ. - 1998. - Vol. 317. - P. 390-395. 36. Greenhalgh T. Meta-analysis is a blunt and potentially misleading instrument for analysing methods of service delivery // Ibid. — P. 396—396. 37. Mulrow C, Langhorne P., Grimshaw J. Integrating heterogeneous pieces of evidence in systematic reviews // Ann. Intern. Med. — 1997. - Vol. 127. - P. 989-995. 160
Глава 9 Статьи, которые говорят вам, что надо делать (клинические рекомендации) 9.1. Большие споры о клинических рекомендациях Нигде пропасть между старомодными врачами и старомодными менеджерами здравоохранения не была столь широка, как в их отношении к клиническим рекомендациям. Менеджеры (к ним я отношу политиков и всех тех, кто внедряет, управляет, оценивает и финансирует действия практикующих врачей, но сам не лечит больных) обычно любят клинические рекомендации. Практикующие врачи, за исключением тех немногих, кто сам участвует в написании рекомендаций, обычно относятся к ним отрицательно. Перед тем, как дальше обсуждать этот жаркий политический спор, нам потребуется определение клинических рекомендаций. «Клинические рекомендации — систематически разработанные утверждения, помогающие врачу принимать правильные решения в определенных клинических обстоятельствах»1. Цели, которым служат клинические рекомендации, приведены во врезке 9.1. Представьте врача-клоуна, весело разгуливающего по поликлинике, диагностирующего одни и те же заболевания и выписывающего одни и те же препараты, которые он 40 лет назад выучил в медицинской школе, не прочитав с тех пор ни одной статьи. Под влиянием этого образа аргумент «врач имеет право на творчество» (т.е. профессиональное мнение врача не может обсуждаться) не выдерживает критики. Такие гипотетические ситуации — бальзам на душу для людей, создающих «экспертные рекомендации» для медицинского сообщества и следящих За теми, кто эти рекомендации не соблюдает. Аргументы против избыточного использования и особенно против принудительного внедрения клинических рекомендаций очень сильны. 161
Врезка 9.1. Цели клинических рекомендаций • Сделать доказательные стандарты ясными и доступными (однако очень мало рекомендаций действительно основано на доказательной медицине — см. далее) • Упростить и сделать более объективными процессы принятия клинических решений в клинике и у постели больного • Служить критерием для оценки профессиональной деятельности • Обеспечить разделение обязанностей (например, между лечащим врачом и консультантом) • Обучить пациентов и врачей лучшим на данный момент способам медицинской помощи • Повысить экономическую эффективность медицинских услуг • Служить инструментом внешнего контроля Они были красноречиво выражены проф. Дж. Гримлей Эвансом (J. Grimley Evans): «Есть опасность того, что в отсутствие доказанных сведений, четко применимых в данном конкретном случае, рекомендации могут заставить врача использовать данные, релевантность которых сомнительна. Эти данные, возможно, были получены на другой группе больных, в другой стране, в другое время, с использованием похожих, но не идентичных методов лечения. Это медицина, основанная на ошибках, это использование доказанных сведений, как в старом анекдоте про пьяного, искавшего потерянный ключ от двери там, где светло, а не там, где он его уронил»2. Опасение Дж. Гримлей Эванса разделяет каждый практикующий врач, хотя мало кто может его так выразить. Опасение заключается в том, что политики и менеджеры здравоохранения, примкнув к доказательной медицине, будут использовать клинические рекомендации для лечения болезней в целом, а не конкретных больных. Есть опасность, что они будут составлять суждения о людях и их заболеваниях на основе опубликованных сведений о том, что вмешательство эффективно «в среднем». Этот и другие недостатки клинических рекомендаций (а также некоторые заблуждения) приведены во врезке 9.2, которая составлена на оснований нескольких источников. Быстро растущая индустрия рекомендаций своим успехом (по крайней мере частично) обязана растущей «культуре подотчетности», кото- 162
Врезка 9.2. Недостатки клинических рекомендаций (реальные и субъективные) • Клинические рекомендации могут основываться на <<мнении экспертов», отражающем не обоснованную доказательствами практику • Снижая вариабельность медицинской помощи, клинические рекомендации могут способствовать достижению среднего, а не наилучшего уровня медицинской практики • Клинические рекомендации препятствуют инновациям, а случаи перестают рассматриваться индивидуально • Теоретически клинические рекомендации могут использоваться юристами, поскольку показывают, что компетентный врач «сделал бы» в определенных обстоятельствах • Клинические рекомендации, разработанные на национальном или региональном уровне, могут не учитывать местные особенности, их может не быть у практикующих врачей в данном регионе • Клинические рекомендации, разработанные для вторичного звена, могут не отражать демографические, клинические или практические различия между вторичным и первичным звеньями медицинской помощи • Клинические рекомендации могут вызывать нежелательный дисбаланс сил между различными профессиональными группами (например, между врачами и учеными, покупателями и поставщиками услуг); поэтому разработку клинических рекомендаций можно воспринимать как политический процесс рая сейчас, по мнению многих, узаконивается во многих странах. В Национальной службе здравоохранения Великобритании все врачи, медсестры, фармацевты и другие специалисты в области здравоохранения сейчас обязаны обеспечивать медицинскую помощь на основании лучших имеющихся научных сведений. Официально разработанные или утвержденные рекомендации — способ одновременно поддержки и регулирования этой похвальной цели. Юридические функции официальных рекомендаций в Великобритании проверялись редко12. В США суды постановили, что разработчики несут ответственность за ошибочные рекомендации, но врачи не могут снимать с себя ответственности за плохую медицинскую помощь, аргументируя это тем, что они были введены в заблуждение плохими рекомендациями. 163
9.2. Изменяют ли клинические рекомендации поведение врача? В систематическом обзоре рандомизированных испытаний и других исследований с «хорошим дизайном» Дж. Гримшоу (J. Grimshaw) и И. Расселл (I. Russell)13 показали, что в экспериментальных условиях (участники, возможно, были тщательно отобраны, а оценка была частью внедрения рекомендаций) все, за исключением 4 из 59 опубликованных исследований, показали улучшения в процессе оказания медицинской помощи (т.е. что делали врачи). Все, кроме 2 из 11 исследований, измерявших исходы (т.е. что случалось с больными), показали значительные улучшения в группе, использовавшей рекомендации по сравнению с «обычной группой». Впоследствии Дж. Гримшоу. организовал специальную подгруппу в Кокрановском сотрудничестве (см. раздел 2.11) для обобщения новых сведений о применении рекомендаций и других методов улучшения профессиональной медицинской деятельности. Сведения о Группе по эффективной практике и организации медицинской помощи (EPOC) вы можете найти на Интернет-сайте Кокрановского сотрудничества14. EPOC и другие группы, исследующие эффективность клинических рекомендаций, первыми отметили, что рекомендации не всегда улучшают профессиональную деятельность или исходы. Дж. Гримшоу, И. Расселл13 и другие специалисты1516 обнаружили широкую вариабельность в улучшении профессиональной деятельности путем использования клинических рекомендаций. Авторы делают заключение, что эффективность рекомендаций зависит от 3 факторов, указанных в табл. 9.1: стратегии разработки (где и как разрабатывались клинические рекомендации), стратегии распространения (как они доводились до сведения врачей) и стратегии внедрения (как врачу надлежало следовать рекомендациям). Табл. 9.1 показывает, что наиболее эффективные рекомендации разрабатываются локально людьми, которые в дальнейшем будут их использовать; они вводятся как часть специального обучающего вмешательства и внедряются путем пациент-специфических напоминаний во время консультации. Сначала заключения Дж. Гримшоу некоторые люди поняли неправильно. Они решили, что национальным рекомендациям вообще нет места, поскольку только локально разработанные рекомендации оказывают какое-то влияние на врачебную практику. На самом деле, хотя локальное утверждение рекомендаций несомненно играет ключевую роль в успехе программы, было бы глупо, если местные команды разработчи- 164
Таблица 9.1. Классификация клинических рекомендаций по вероятности их эффективности (По Grimshaw и Russell) Вероятность эффективности Стратегия разработки Стратегия рас- пространения Стратегия внедрения Высокая Выше среднего Ниже среднего Низкая Внутренняя Промежуточная Внешняя, локальная Внешняя, национальная Специфическое образовательное вмешательство (например, проблемно ориентированное обучение) Непрерывное образование (например, лекции) Почтовая рассылка в целевые группы Публикация в журнале Пациент- специфическое напоминание во время консультации Пациент- специфическая обратная связь Общая обратная связь Общая подсказка ков не опирались на весь спектр ценных ресурсов, какими являются национальные и международные рекомендации, основанные на доказательной медицине17. В последующих публикациях был обнаружен ряд препятствий к практическому применению рекомендаций6,7'818. Эти препятствия включают: • (возможные) разногласия между экспертами по поводу качества до - казанных сведений («Ну, если уж они не могут договориться друг с другом...»); • отсутствие веры врачей в доказанные сведения («Все это очень хорошо, но в университете нас учили при астме воздерживаться от стероидов»)\ • защитную медицину (« На всякий случай я назначу эти исследования »); • стратегические и затратные ограничения («Мы не можем позволить себе заменить оборудование»); • специфические практические проблемы («Куда я дел эти рекомендации?»); • неприятие больными определенных процедур («Миссис Браун настаивает на том, что ей требуются только исследования мазков каждые 5 лет»); • конкурирующие интересы других немедицинских факторов («Когда мы получим и запустим новую компьютерную систему ...»); • отсутствие надлежащей пациент-специфической обратной связи для оценки профессиональной деятельности («Похоже, я лечу это заболевание успешно»). 165
Детальное обсуждение препятствий на пути внедрения рекомендаций приведено Гримшоу и Расселом19, см. также обзоры по разработке17 и применению20 рекомендаций в Британском медицинском журнале (1999) и оригинальные исследования других авторов15,21. В двух словах: успешное внедрение рекомендаций требует «тщательного внимания к принципам управления переменами; особенно необходимы лидерство, энергия, избегание неопределенности, способность к общению и, самое главное, время». 9.3. Вопросы, которые необходимо задать о коллекции рекомендаций Рекомендации, как и другие статьи, легче оценивать, если они представлены в стандартизованном виде. Во врезке 9.3 приведена типовая структура реферата (аннотации) клинической рекомендации. Однако в Врезка 9.3. Предлагаемая структура аннотации клинических рекомендаций • Цель — основная цель клинической рекомендации, включая медицинскую проблему и целевых пациентов, поставщиков услуг и условия, в которых будет применяться рекомендация • Возможные варианты — варианты оказания медицинской помощи, рассмотренные при формулировании рекомендации • Исходы — важные медицинские и экономические исходы, учитываемые при сравнении альтернативных вмешательств • Доказанные сведения — как и когда доказанные сведения были собраны, отобраны и обобщены • Значения — раскрытие того, как те или иные значения приписывались потенциальным исходам для различных вариантов оказания медицинской помощи и кто участвовал в этом процессе • Польза, вред и затраты — тип и величина пользы, вреда и затрат, ожидаемых для больных в результате внедрения рекомендации • Рекомендации — краткое изложение основных рекомендаций • Оценка достоверности — какая-либо внешняя оценка, сравнение с другими рекомендациями или клиническое тестирование • Организаторы — люди, разработавшие, финансировавшие или утвердившие рекомендацию 166
настоящее время очень немногие рекомендации соответствуют этому формату, и вам, возможно, придется просматривать весь текст для получения ответов на приведенные ниже вопросы. В подготовке этого списка вопросов я опиралась на ранее опубликованные проверочные списки и документы8'15'18-20'23"25. Вопрос 1. Сопровождалась ли подготовка и публикация рекомендаций конфликтом интересов? Не буду долго останавливаться на этом вопросе, но фармацевтическая компания, производящая препараты для гормональной заместительной терапии, или исследователь, посвятивший всю жизнь этому методу лечения, могут испытывать соблазн рекомендовать его по более широким показаниям, чем среднестатистический врач. Вопрос 2. Касаются ли рекомендации подходящей темы и указывают ли они четко цель идеального лечения в терминах медицинских и/или экономических исходов? Главные вопросы относительно выбора темы, взятые из статьи в Британском медицинском журнале, приведены во врезке 9.4. Рекомендация «делайте это» без объяснения врачу, почему это нужно делать, — плохая с психологической и научной точек зрения. Рекомендация может привести к повышению выживаемости, снижению частоты осложнений, повышению удовлетворенности пациентов или снижению Врезка 9.4. Ключевые вопросы для выбора темы разработки рекомендации • Имеет ли тема большое значение, объем, высокий риск, высокую стоимость • Имеются ли большие или необъяснимые вариации оказания медицинской помощи по данной теме • Важна ли тема с точки зрения процесса и результата медицинской помощи • Имеются ли возможности для улучшения • Вероятны ли возвращение вложенных денег и выигрыш во времени • Заинтересованы ли члены команды в данной теме • Возможен ли консенсус между разработчиками рекомендаций • Принесут ли изменения пользу пациентам • Можно ли внедрить полученные рекомендации в практику 167
прямых или непрямых затрат (см. раздел 10.2). Что бы это ни было, важно это знать. Вопрос 3. Возглавлял ли группу по разработке рекомендаций ведущий эксперт в этой области и привлекались ли специалисты по методам вторичных исследований (например, специалист помета- анализу, экономист в области здравоохранения) ? Если рекомендации были полностью разработаны группой «внутренних экспертов», вам следует, как это ни парадоксально, относиться к ним особенно критично. Это связано с тем, что эксперты менее объективны в оценке сведений в своей области, чем в других областях. Привлечение независимого специалиста (эксперта по разработке клинических рекомендаций, а не по определенной клинической теме) в качестве судьи и советника по методологической части может придать этой работе большую объективность. Вопрос 4. Изучались ли тщательно все сведения и соответствуют ли выводы рекомендаций этим сведениям? Проще говоря, проводился ли анализ литературы вообще или рекомендации отражают предпочтительную практику группы экспертов (т.е. это рекомендации консенсусные)? Если литература изучалась, проводился ли системный поиск и если да, то соответствовал ли он методологии, описанной в разделе 8.2? Были ли выявлены в процессе поиска все статьи? Использовалась ли однозначная система исключения статей низкого методологического качества и придания высококачественным статьям дополнительного веса, которого они заслуживали? В идеале исходным материалом для разработки рекомендаций должны быть современные систематические обзоры. Однако во многих случаях поиск исследований, на которых должны основываться рекомендации, оказывается безуспешным и авторы неизбежно обращаются к «лучшим из доступных» сведениям или мнению экспертов. Во многих клинических областях мнения экспертов остаются лучшими «доказательными сведениями». Разработчики рекомендаций должны использовать точные методы, чтобы рекомендации не отражали лишь позицию эксперта, дольше всех выступающего на конференциях. Пол Шекелле (Paul Shekelle) из корпорации RAND в США предложил интересные способы повышения точности консенсусных рекомендаций: выбирать правильное сочетание экспертов, при котором каждый рассматривает доказанные сведения, все обладают равными правами при 168
голосовании, все спорные вопросы (задаваемые анонимно) полностью обсуждаются, а итоговые рекомендации отражают степень согласия и расхождения мнений. В рамках Программы оценки медицинских технологий в Великобритании был проведен ценный обзор преимуществ и ограничений консенсусных методов, полный текст этого обзора можно найти в Интернете32. Вопрос 5. Учитывают ли рекомендации различия в оказании медицинской помощи и другие противоречия (например, оптимальная медицинская помощь при истинном или относительном недофинансировании) ? Невозможно представить идеальную медицинскую помощь безотносительно к тому, что происходит в реальном мире. Во многих ситуациях врачи выбирают собственный путь (см. раздел 1.2), хорошие рекомендации должны учитывать такие ситуации, а не надеяться на то, что врачи сами собой переключатся на рекомендуемый способ действий. Другой трудный вопрос, на который также должны давать ответ клинические рекомендации: где возможны компромиссы, если финансовые ограничения мешают «идеальной» медицинской помощи? Например, если в идеале нужно предлагать всем больным с тяжелой ишемической болезнью сердца операцию шунтирования, а система здравоохранения может финансировать только 20% таких операций, кого следует направить на операцию в первую очередь? Вопрос 6. Являются ли рекомендации достоверными и надежными? Другими словами, можете ли вы доверять им. Если другая группа по разработке рекомендаций обратилась бы к тому же вопросу, были бы рекомендации сформулированы таким же образом? Академическая достоверность рекомендаций зависит от того, основываются ли они на высококачественных научных исследованиях и насколько убедительны доказательства в этих исследованиях. Особенно должны быть рассмотрены вероятность и доверительные интервалы (см. раздел 4.6). Вопрос 7. Являются ли рекомендации клинически применимыми, всесторонними и достаточно гибкими? Другими словами, написаны ли они с точки зрения практикующего врача, медсестры, акушерки, физиотерапевта и т.д. Учитывают ли они типы пациентов, которых врачи могут увидеть, различные обстоятель- 169
ства. Возможно, самой частой причиной проблем является перенос рекомендаций, разработанных для вторичного звена медицинской помощи и использования у пациентов стационаров (обычно состояние таких пациентов самое тяжелое), в первичное звено, где состояние пациентов менее тяжелое, они нуждаются в меньшем числе обследований и менее активном лечении. Этот вопрос обсуждается в разделе 7.2 применительно к различной пользе диагностических и скрининговых тестов. Рекомендации должны охватывать все возможные клинические случаи или их большую часть. Что делать, если больной не переносит рекомендуемый лекарственный препарат? Что делать, если вам недоступны все рекомендуемые анализы крови? Что делать, если больной молодой, старый или имеет сопутствующие заболевания? В конце концов, это именно те больные, чье состояние заставляет врача обращаться к рекомендациям. «Типичного» больного обычно лечат без письменных инструкций. Гибкость в отборе информации особенно важна для национальных и местных органов, разрабатывающих рекомендации. В нескольких работах показано, что составление рекомендаций людьми, предполагающими использовать их локально, имеет решающее значение для того, чтобы они реально использовались. Если врачи не могут свободно адаптировать рекомендации к местным условиям, их скорее всего никогда не вынут из ящика письменного стола. Вопрос 8. Учитывают ли рекомендации, что приемлемо, позволительно и практически возможно для больных? В 1940-х годах (когда не было эффективных лекарств для снижения высокого ДД) один врач обнаружил, что потребление больными гипер- тензией несоленого вареного риса значительно снижало АД и риск развития инсульта. Однако такая диета делала больных настолько несчастными, что многие из них совершали самоубийство. Конечно, это крайний пример, но я видела рекомендации по лечению запора у пожилых, не предлагавшие никаких альтернатив сочетанию больших количеств отрубей и суппозиториев 2 раза в день. Неудивительно, что медсестры, которым были адресованы эти рекомендации (я отношусь к ним с большим уважением), вернулись к использованию касторового масла. Для дальнейшего изучения того, как учитывать потребности и приоритеты больных в разработке рекомендаций, см. доклад Общества здоровья (1995). 170
Вопрос 9. Предусмотрена ли процедура распространения, внедрения и регулярного обновления клинических рекомендаций? Учитывая разрыв между хорошей медицинской помощью и реальностью, препятствия для успешного внедрения рекомендаций (обсуждаются в разделе 9.2), разработчики рекомендаций заинтересованы в предложении методов улучшения их использования. Если бы эта цель была включена как стандарт в «Рекомендации для хороших рекомендаций», разработчики, возможно, выдавали бы меньше «высоколобых» рекомендаций и больше рекомендаций правдоподобных, применимых и понятных для пациентов. Литература 1. Field M.J., LohrK.N. Clinical Practice Guidelines: Direction of a New Agency. — Washington: Institute of Medicine, 1990. 2. Grimley Evans J. Evidence based and evidence-biased medicine // Age Ageing. - 1995. - Vol. 24. - P. 461-463. 3. Edwards P., Jones S., Shale D., Thursz M. Shared Care — a Model for Clinical Management. — Oxford: Radcliffe Medical Press, 1996. 4. Hurwitz B. Clinical guidelines and the law: advice, guidance or regulation? //J. Eval. Clin. Pract. - 1995. - Vol. 1. - P. 49-60. 5. Chalmers I. Why are opinions about the effects of health care so often wrong? // Medicolegal J. - 1993. - Vol. 62. - P. 116-130. 6. Delamothe T. Wanted: guidelines that doctors will follow // BMJ. — 1993.-Vol. 307.-P. 218. 7. Greenhaigh P.M. Shared Care for Diabetes — a Systematic Review. — Lond.: Royal College of General Practitioners, 1994 (Occasional Paper 67). 8. Ayers P., Renvoize Т., Robinson M. Clinical guidelines: key decisions for acute service providers // Br. J. Health Care Manage. — 1995. — Vol. 1. — P. 547-551. 9. Newton J., Knight D., Woolhead G. General practitioners and clinical guidelines: a survey of knowledge, use and beliefs // Br. J. Gen. Pract. — 1996;.-Vol. 6. -P. 513-517. 10. WoolfS.H., GrolR., Hutchinson A. etal. Clinical guidelines: potential benefits, limitations, and harms of clinical guidelines // BMJ. - 1999. - Vol. 318.-P. 527-530. 11. Department of Health. A First Class Service: Quality in the New NHS. - London: The Stationery Office, 1998. 171
12. Hurwitz В. Clinical guidelines: legal and political considerations of clinical practice guidelines // BMJ. - 1999. - Vol. 318. - P. 661-664. 13. Grimshaw J.M., Russell I.T. Effect of clinical guidelines on medical practice. A systematic review of rigorous evaluations // Lancet. — 1993. - Vol.342. -P. 1317-1322. 14. EPOC abstracts can be found via the public-access site listing all Cochrane abstracts on http://hiru.mcmaster.ca/cochrane/cochrane/ revabstr/abidx.htm. 15. Lomas J., Haynes R.B. A taxonomy and critical review of tested strategies for the application of clinical practice recommendations. From «official» to «individual» clinical policy//Am. J. Prev. Med. — 1987. — Vol. 4. - P. 77-94. 16. Thomas L., Cullum N., McColl E. et al. Guidelines in professions allied to medicine (Cochrane Review) // The Cochrane Library, Issue 2. - Oxford: Update Software, 2000. 17. ShekelleP.G., WoolfS.H, Eccles M., Grimshaw J. Clinical guidelines: developing guidelines // BMJ. - 1999. - Vol. 318. - P. 593-596. 18. Report from General Practice 26. The Development and Implementation of Clinical Guidelines. — London: Royal College of General Practitioners, 1995. 19. Grimshaw J.M., Russell I. T. Achieving health gain through guidelines II: ensuring guidelines change medical practice // Qual. Health Care. — 1994.-Vol. 3.-P. 45-52. 20. Feder G., Eccles M., GrolR. et al. Clinical guidelines: using clinical guidelines // BMJ. - 1999. - Vol. 318. - P. 728-730. 21. Oxman A. No Magic Bullets: a Systematic Review of 102 Trials of Interventions to Help Health Professionals Deliver Services More Effectively and Efficiently. — Lond.: North East Thames Regional Health Authority, 1994. 22. Hayward R.S.A., Wilson M.C., Tunis S.R. et al. More informative abstracts of articles describing clinical practice guidelines // Ann. Intern. Med. - 1993. - Vol. 118. - P. 731-737. 23. Hayward R.S.A., Wilson M.C., Tunis S. et al. Users' guides to the medical literature. VIII. How to use clinical practice guidelines. A. Are the recommendations valid? // JAMA. - 1995. - Vol. 274. - P. 570. 24. Wilson M.C., Hayward R.S., Tunis S.R. et al. Users' guides to the medical literature. VIII. How to use clinical practice guidelines. B. Will the recommendations help me in caring for my patients? // Ibid. — P. 1630- 1632. 172
25. Effective Health Care Bulletin. Implementing Clinical Guidelines: Can Guidelines Be Used to Improve Clinical Practice? - Leeds: University of Leeds, 1994. 26. Thomson R., Lavender M., Madhok R. How to ensure that guidelines are effective // BMJ. - 1995. - Vol. 311. - P. 237-742. 27. Cook D.J., Mulrow CD., Haynes R.B. Systematic reviews: synthesis of best evidence for clinical decisions // Ann. Intern. Med. — 1997. — Vol. 126. - P. 376-380. 28. Cook D.J., Greengold N.L., Ellrodt A.G., Weingarten S.R. The relation between systematic reviews and practice guidelines // Ibid. — Vol. 127.-P. 210-216. 29. Shekelle P.G., Kahan J.P., Bernstein S.J. et al. The reproducibility of a method to identify the overuse and under use of medical procedures // N. Engl. J. Med. - 1998. - Vol. 338. - P. 1888-1895. 30. Shekelle P.G., Roland M. Measuring quality in the NHS: lessons from across the Atlantic // Lancet. - 1998. - Vol. 352. - P. 163. 31. Campbell S.M., Hann M., Roland M.O. et al. The effect of panel membership and feedback on ratings in a two-round Delphi survey: results of a randomized controlled trial//Med. Care. - 1999. - Vol. 37. - P. 964- 968. 32. Murphy M.K., Black N.A., Lamping D.L. et al. Consensus development methods and their use in clinical guideline development // Health Technol. Assess. - 1998. - Vol. 2. No. 3. Available in full text on http://www.hta.nhsweb.nhs.uk/ 33. Kelson M. Consumer involvement initiatives in clinical audit and outcomes. A review of Developments and Issues in the Identification of Good Practice. — Lond.: College of Health, 1995. 34. Haines AP. The science of perpetual change // Br. J. Gen. Pract. — 1996.-Vol. 46.-P. 115-119. 173
Глава 10 Статьи о том, что сколько стоит (экономические анализы) 10.1. Что такое экономический анализ? Экономический анализ включает использование аналитических методов при принятии решений о распределении ресурсов. Большая часть того, о чем я буду говорить по этой теме, основывается на материалах, подготовленных командой проф. Майкла Драммонда (Michael Drummond) для авторов и рецензентов экономических анализов1, трех статьях из серии «Users' guides to the medical literature»2,3,4, а также замечательном карманном руководстве Т. Джефферсона (Т. Jefferson) и соавт5. Все эти публикации подчеркивают важность рассмотрения экономических вопросов при оценке статьи в контексте общего качества и применимости исследования (см. раздел 10.3). Первой запомнившейся мне экономической оценкой была реклама на телевидении, в которой поп-певец Клифф Ричард (Cliff Richard) старался убедить домохозяек, что наиболее дорогая из имеющихся в продаже марок моющих средств «на самом деле выходит дешевле». Это средство, вероятно, лучше очищало, было более мягким для рук и производило больше мыльных пузырей на каждый израсходованный пенс, чем «типичное дешевое средство». Хотя в то время мне было всего 9 лет, меня это не убедило. С каким «типичным средством» проводилось сравнение? Насколько лучше очищает дорогое моющее средство? Почему эффективность средства для мытья посуды должна измеряться в мыльных пузырях, а не в вымытых тарелках? Извините меня за этот бытовой пример, но я бы хотела использовать его для иллюстрации четырех основных типов экономических оценок, которые вы найдете в литературе (общепринятые определения приведены в табл. 10.1). 174
Таблица 10.1. Типы экономических анализов Тип анализа Мера исхода Когда используется Пример Анализ минимизации затрат Нет меры исхода Анализ эффективности затрат Анализ полезности затрат Анализ выгодности затрат Естественные единицы (например, число лет жизни) Единицы полезности (например, годы жизни с поправкой на качество) Денежные единицы (например, оцениваемая стоимость потери трудоспособности) Используется, когда известно, что эффект обоих вмешательств одинаков (или может считаться одинаковым) Используется, когда эффект вмешательства может быть выражен в терминах одной основной переменной Используется, когда влияние вмешательства на состояние здоровья имеет два важных измерения или больше (например, благоприятные и побочные эффекты лекарственных препаратов) Используется, когда желательно сравнить вмешательство при одном состоянии с вмешательством при другом состоянии Сравнение цены .оригинального лекарственного препарата с его аналогом- дженериком, если показана биоэквивалентность Сравнение двух методов профилактики опасного для жизни состояния Сравнение благоприятных эффектов двух видов лечения варикозного расширения вен в терминах хирургического результата, косметического внешнего вида и риска серьезных осложнений (например, эмболия легочной артерии) Руководителям для того, чтобы решить, что финансировать - программу по пересадке сердца или реабилитации при инсульте Анализ минимизации затрат (cost minimisation analysis). «Суд- зо» стоит 47 пенсов за бутылку, а «Джиффо» стоит 63 пенса за бутылку. Анализ эффективности затрат (cost effectiveness analysis). «Судзо» обеспечивает на 15 чистых тарелок больше при каждом использовании, чем «Джиффо». Анализ полезности затрат (cost utility analysis). В терминах числа часов труда домохозяек с поправкой на качество (сложный 175
показатель, отражающий время и усилия, требуемые для очищения тарелок, и шершавость рук, вызываемую жидкостью для мытья посуды), «Судзо» дает 29 баллов на каждый потраченный фунт, а «Джиффо» дает 23 балла. • Анализ выгодности затрат (cost benefit analysis). Суммарная стоимость (отражающая прямые затраты на продукт, непрямые затраты времени, потраченного на мытье, и оцениваемая финансовая ценность чистой тарелки по сравнению с сохранившей некоторое количество загрязнений) «Судзо» составляет 7,17 пенса в день, а «Джиффо» — 9,32 пенса в день. Вы должны увидеть, что в этом примере наиболее разумно использовать анализ эффективности затрат. Анализ минимизации затрат (см. табл. 10.1) не подходит, поскольку «Судзо» и «Джиффо» неодинаковы по эффективности. В анализе полезности затрат нет необходимости, потому что в этом примере нас интересует только количество вымытой посуды на единицу моющей жидкости; другими словами, результат имеет только одно важное измерение. Анализ выгодности затрат в этом примере — до абсурда сложный способ доказательства того, что «Судзо» моет больше тарелок на каждый потраченный пенс. Тем не менее существует множество ситуаций, в которых медики (особенно те, кто покупает медицинские услуги при ограниченном бюджете) должны выбирать между вмешательствами по поводу самых разных состояний, исходы которых (такие, как число предотвращенных случаев кори, повышенная мобильность в результате протезирования головки бедренной кости, сниженный риск смерти от сердечного приступа или вероятность рождения живого ребенка) нельзя сравнивать напрямую. Противоречия имеются не только вокруг того, как должны проводиться эти сравнения (см. раздел 10.2), но и кто должен их делать, на кого должны ориентироваться лица, принимающие решения о «рационализиро- вании» здравоохранения. Эти ключевые, интересные и проблемные вопросы выходят за рамки книги, но если вам интересно, я рекомендую воспользоваться ссылками, приведенными в конце этой главы6-14. 10.2. Измерение затрат и пользы медицинских вмешательств Не так давно я попала в больницу по поводу острого аппендицита. С точки зрения больницы, затраты на уход включали мое размещение на протяжении 5 дней, соответствующую часть времени врачей и медсес- 176
тер, лекарственные препараты и перевязочные средства и исследования (анализы крови и рентгенограмма). К другим прямым затратам (см. врезку 10.1) относились время моего участкового врача, посетившего меня в середине ночи, деньги за бензин, которые потратил муж, навещавший меня в больнице (не считая затрат на виноград и цветы). Кроме того, были и непрямые затраты, связанные с моей нетрудоспособностью. Меня не было на работе 3 нед, мои домашние обязанности временно разделили между собой друзья, соседи и милая девушка, работавшая няней. С моей точки зрения, я понесла еще некоторый моральный ущерб: дискомфорт, утрата независимости, аллергическая сыпь в ответ на лекарства и косметически небезупречный рубец на животе. Как показано на врезке 10.1, прямые, непрямые затраты и моральный ущерб составляют одну сторону соотношения затраты—польза. К пользе относится то, что операция значительно повысила мои шансы на сохранение жизни. Кроме того, я хорошо отдохнула от работы и, честно говоря, мне было приятно внимание и сочувствие окружающих. (Обратите внимание, что «социальная окраска» аппендицита может Врезка 10.1. Примеры затрат и выгод от медицинских вмешательств Затраты Прямые Размещение в больнице Лекарства, повязки и т.д. Исследования Зарплата персонала Непрямые Потерянные рабочие дни Ценность «неоплаченной Невидимые Боль и страдания Социальная окраска работы» Польза Экономические Предотвращение заболевания, лечение которого дорого стоит Избежание госпитализации в будущем Возвращение к оплачиваемой работе Клинические Отдаление во времени смерти или инвалидности Облегчение боли, тошноты, одышки и т.д. Улучшение зрения, слуха, мышечной силы и т.д. Качество жизни Повышенная мобильность и независимость Улучшение самочувствия Освобождение от роли больного 177
быть положительной. Я бы гораздо меньше хвасталась своим опытом, если поступление в больницу было связано, скажем, с эпилептическим припадком или нервным срывом, имеющими отрицательную социальную окраску.) В примере с аппендицитом очень мало больных (и еще меньше покупателей — врачей) воспользуется свободой выбора в согласии на операцию. Однако большинство медицинских вмешательств не связано с бесспорно необходимыми процедурами по поводу неотложных и угрожающих жизни состояний. В большинстве случаев альтернативой будет не смерть, а развитие по крайней мере одного хронического, приводящего к нетрудоспособности и прогрессирующего состояния, будь то ишемическая болезнь сердца, высокое АД, артрит, хронический бронхит, злокачественная опухоль, ревматизм, гипертрофия предстательной железы или диабет. На каком-то этапе почти всем нам придется решать, стоит ли того согласие на операцию, на прием определенного лекарственного препарата или на уступку в образе жизни (снижение потребления алкоголя или переход на низкожировую диету). Информированные лица могут делать выбор своими «чувствами»: «пусть лучше будет грыжа, чем ложиться под нож» или «я знаю о риске тромбоза, но буду продолжать курить и принимать таблетки». Однако, когда выбор касается здоровья других людей, субъективные суэвдения - последнее, на что можно положиться. Большинство из нас ждет от организаторов здравоохранения использования объективных, ясных и оправданных критериев при принятии решений, например: «Нет, г-же Браун нельзя проводить трансплантацию почки». Один из важных способов определить, чего стоит данное заболевание (например, плохо контролируемый диабет или астма), это спросить какого-нибудь пациента с этим заболеванием, как он себя чувствует. Разработано несколько опросников, цель которых — измерить общее состояние здоровья: опросник Nottingham Health Profile, опросник общего состояния здоровья SF-36 (широко используется в Великобритании) и опросник McMaster Health Utilities Index (популярен в Северной Америке)15. В некоторых обстоятельствах специфические (по отношению к заболеванию) меры благополучия более достоверны, чем общие показатели. Например, ответ «да» на вопрос о том, испытываете ли вы тревогу по поводу потребляемой пищи, может означать тревожное состояние у человека без диабета и нормальную заботу о своем здоровье у человека с диабетом16. Отмечается также повышение интереса к пациент-специ- 178
фичным мерам качества жизни, когда пациенты присваивают различный вес определенным аспектам здоровья и благополучия. В этих случаях качество жизни анализируется с точки зрения больного, это разумный и гуманный подход. Тем не менее экономист в области здравоохранения обычно принимает решение о группах пациентов или о населении в целом, при этом пациент-специфические и даже болезнь- специфические меры качества жизни имеют ограниченную ценность. Если вы хотите принять участие в продолжающихся спорах о том, как измерять качество жизни, связанное со здоровьем, изучите некоторые источники, приведенные в конце этой главы15,17~25. Авторы стандартных инструментов измерения качества жизни (например, SF-36) часто затрачивали годы на подтверждение их обоснованности (измеряют то, что мы думаем), достоверности (делают это каждый раз одинаково) и реагирования на изменения (т.е. если вмешательство улучшает или ухудшает здоровье больного, шкала будет это отражать). По этой причине вам следует критически относиться к статьям, в которых вместо этих стандартных инструментов использовались авторские шкалы, сделанные кое-как («Функциональная способность классифицировалась как хорошая, умеренная или слабая в соответствии с общим впечатлением врача» или «Мы попросили больных оценить боль и общий уровень самочувствия в баллах от 1 до 10 и суммировали эти результаты»). Имейте также в виду, что даже те инструменты исследования, которые, возможно, были хорошо проверены, часто не выдерживают тщательного рассмотрения психометрической обоснованности17. Другой способ ответа на вопрос «Чего это стоит?» применительно к состоянию здоровья — показатели предпочтения состояния здоровья, т.е. показатель, который в гипотетической ситуации здоровый человек сопоставит с определенным ухудшением своего здоровья или которое больной человек сопоставит с возвращением к здоровому состоянию. Существуют 3 основных метода определения таких показателей26. • Измерение показателей на шкале — респондента просят отметить на линии, один конец которой означает, например, «отличное здоровье», а другой — «смерть», где он поместил бы интересующее нас состояние (например, прикованность к инвалидной коляске вследствие артрита бедренного сустава). • Измерение временем — респондента с определенным состоянием (например, с бесплодием) просят отметить, сколько лет в состоянии полного здоровья они могли бы пожертвовать ради излечения от своей болезни. 179
• Измерение методом стандартной лотереи — респондента просят выбрать между жизнью с определенным состоянием/заболеванием и участием в «лотерее» (например, операция), которая полностью вернет ему здоровье в случае успеха или приведет к смерти в случае неудачи. Успех измеряется в определенной вероятности. Затем значение вероятности меняют и устанавливают, при каком значении респондент решает, что результат не стоит участия в «лотерее». Годы жизни с поправкой на качество (QALY, от англ. —Quality Adjusted Life Year) можно сосчитать, умножив показатель предпочтения для данного состояния на время, которое больной, вероятно, проведет в этом состоянии. Результаты анализов выгодности затрат обычно выражаются в терминах «затраты на QALY», некоторые примеры показаны во врезке 10.227. Моя кровь закипает, когда я начинаю говорить про QALY (и я не одинока в этом28). Любое измерение показателей предпочтения состояния здоровья является в лучшем случае отражением предпочтений и предрассудков людей, способствовавших ее разработке. Действительно, различные значения QALY могут зависеть от того, как были заданы вопросы для определения предпочтений состояния здоровья29. Как отмечает специалист по медицинской этике Джон Харрис (John Harris), неотъемлемой чертой QALY, равно как и общества, их производящего, является возрастная, половая и расовая дискриминация; QALY направлены против людей с постоянной нетрудоспособностью (поскольку даже полное излечение другого, не связанного с инвалидностью состояния, не возвратит этому человеку «отличного здоровья»). Более того, Врезка 10.2. Затраты на QALY (цифры 1990 г.) в фунтах Определение уровня холестерина и диетотерапия Совет отказаться от курения, данный врачом пациента Замена бедренного сустава при артрите Трансплантация почки Скрининг на рак молочной железы Определение уровня холестерина и лекарственная терапия по показаниям (возраст 25—39 лет) Нейрохирургическая операция по поводу злокачественной опухоли мозга 220 270 1180 4710 5780 14 150 107 780 180
QALY противоречат нашим этическим установкам, концентрируя наши мысли на временных интервалах, а не на человеческих жизнях. Харрис отмечает, что на недоношенного ребенка, нуждающегося в интенсивной терапии, придется больше ресурсов, чем он заслуживает, по сравнению с 50-летней женщиной со злокачественной опухолью, потому что ребенок, если выживет, проживет много лет, в течение которых качество его жизни можно будет поправлять30. Список альтернатив QALY становится все более запутанным. Некоторые показатели, вошедшие в моду, когда эта книга сдавалась в печать, перечислены ниже. • Эквивалент здоровых лет — QALY-подобная мера, инкорпорирующая вероятное улучшение или ухудшение состояния здоровья человека в будущем31. • Желание платить (WTP) или желание получить (WTA) — меры того, как много люди готовы заплатить за определенную пользу или отсутствие определенных проблем5. • Годы здоровой жизни — инкорпорирует риск смерти и заболевания в единое значение32. • Год жизни с поправкой на нетрудоспособность/инвалидность — используется в основном в развивающихся странах для оценки общего бремени хронических заболеваний и лишений33,34; все более часто используемый показатель, также не избежавший критики35. • TWiST (время, проведенное без симптомов заболевания и токсичности лечения) и Q-TwiST (TwiST с поправкой на качество)36. Мой личный совет: внимательно посмотрите на то, что входит в показатель, что предлагается как «объективный» показатель состояния здоровья человека (или населения) и как различные значения показателя могут различаться в зависимости от заболевания. На мой взгляд, все они имеют потенциал для использования, но ни один не является абсолютной или неоспоримой мерой здоровья или болезни! (Я не претендую на звание эксперта по этим показателям; в конце этой главы вы можете найти большой список дополнительных источников информации.) Однако имеется и другая форма анализа, которая, хотя не отвергает необходимости присваивать произвольные числовые значения жизни в целом и конечностям по отдельности, избегает финиша на долларовом итоге вместе с экономистом здравоохранения. Этот подход, известный как анализ последствий затрат (cost consequences analysis), представляет собой результаты экономического анализа в дезагрегированной форме. Другими словами, он выражает различные исходы в терминах 181
различных естественных единиц (т.е. что-то реальное, например месяцы выживания, ампутированные конечности или дети, выписанные домой), чтобы люди могли присвоить собственные значения определенным состояниям здоровья перед сравнением двух различных вмешательств (например, лечение бесплодия и снижение уровня холестерина, как в примере, упомянутом в главе 1). Анализ последствий затрат позволяет предпочтениям состояния здоровья как человека, так и общества меняться со временем и особенно полезен, когда они дискутируются и, скорее всего, изменятся. Этот подход также предполагает использование анализа группами или обществами, отличными от тех, на которых было проведено оригинальное исследование. 10.3. Десять вопросов, которые необходимо задать для оценки экономического анализа Приведенный здесь простейший проверочный лист во mhoiOm основан на источниках, указанных в разделе 1 этой главы. Я настоятельно рекомендую для получения более подробной информации обратиться к этим источникам, особенно к официальным рекомендациям рабочей группы Британского медицинского журнала1. Вопрос 1. Основывается ли анализ на исследовании, отвечающем на четко определенный клинический вопрос об экономически важной проблеме? Перед тем как начать разбираться в том, что говорит статья о затратах, шкалах качества жизни или полезности, убедитесь, что анализируемое исследование релевантно с научной точки зрения и способно дать несмещенные и недвусмысленные ответы на клинический вопрос, заданный во введении (см. главу 4). Если межлу вмешательствами нечего выбирать в терминах затрат или пользы, то дальнейший детальный экономический анализ, возможно, не имеет смысла. Вопрос 2. С чьей точки зрения рассматриваются затраты и выгоды? С точки зрения больного желательно как можно более быстрое улучшение. С точки зрения казначейства наиболее экономически эффективное медицинское вмешательство должно быстро возвращать всех граждан к статусу налогоплательщиков, а когда этот статус более невозможен, сразу же вызывать их внезапную смерть. С точки зрения фармацевтической 182
компании соотношение затраты—польза должно содержать хотя бы один продукт этой компании, а с точки зрения физиотерапевта отказ от физиотерапевтического лечения никогда не будет экономически эффективным. Экономический анализ — единственная область, для которой настолько характерно отсутствие четкого ракурса. Большинство исследователей действует исхода из ракурса системы здравоохранения как таковой, хотя некоторые принимают во внимание скрытые затраты для пациента и общества (например, вследствие утраченных дней трудоспособности). В экономической оценке не может быть «правильного ракурса», но статья должна четко говорить, чьи затраты и чья польза учитывались или исключались. Вопрос 3. Доказана ли клиническая эффективность сравниваемых вмешательств ? Никто не хочет дешевого лечения, если оно неэффективно. Статья, которую вы читаете, может быть экономическим анализом; в этом случае она будет основана на ранее опубликованном клиническом испытании. Она может быть экономической оценкой нового испытания, клинические результаты которого представлены в этой же статье. В любом случае вы должны убедиться, что вмешательство, которое «выходит дешевле», не является значительно менее эффективным в клинических терминах, чем то, которое предлагается отвергнуть по причине высокой стоимости. (Обратите внимание, что в системе здравоохранения с ограниченными ресурсами часто более разумно использовать те виды лечения, которые немного менее эффективны и гораздо дешевле наилучшего вида лечения!) Вопрос 4. Являются ли вмешательства приемлемыми в условиях, в которых их скорее всего будут использовать? Исследование, сравнивающее одно неясное и непозволительное вмешательство с другим, не повлияет на медицинскую практику. Запомните, что одним из сравниваемых альтернативных вмешательств должна быть стандартная современная практика (которая может быть «ничегонеделанием»). Слишком много исследований рассматривают наборы вмешательств, которые не удастся внедрить в обычных, неэкспериментальных условиях (они предполагают, например, что практикующие врачи имеют хорошие компьютеры и согласны следовать протоколу, что медсестры располагают неограниченным временем для выполнения анализов крови, что больные выбирают вмешательства только на основании заключений данного исследования и т.д.). 183
Вопрос 5. Какой метод анализа использовался, правильно ли он был выбран? Это решение можно обобщить следующим образом (см. раздел 10.2). • Если вмешательства приводят к одинаковым исходам —> анализ минимизации затрат. • Если важный исход имеет одно измерение —» анализ эффективности затрат. • Если важный исход имеет множество измерений —» анализ полезности затрат. • Если исходы могут быть осмысленно выражены в денежном эквиваленте (т.е. если можно взвесить уравнение затраты—польза для этого состояния против затраты—польза для другого состояния) -> анализ выгодности затрат. • Если анализ выгодности затрат во всем остальном был бы правилен, но показатели предпочтений, данные по различным состояниям здоровья, оспариваются или, вероятно, изменятся -» анализ последствий затрат. Вопрос 6. Как измерялись затраты и польза? Обратитесь снова к разделу 10.2, в котором я перечислила некоторые затраты, связанные с операцией по удалению червеобразного отростка. Теперь представьте более сложный пример — реабилитацию больного после инсульта в собственном доме с посещением дневного стационара по сравнению со стандартным альтернативным вмешательством (реабилитация в обычной больнице). Экономический анализ должен учитывать не только время различных привлекаемых к лечению специалистов, время секретарей и администраторов, помогающих в работе центра, стоимость питания и медикаментов, принимаемых больными после инсульта, но и стоимость капитального строительства дневного стационара и услуг по доставке больных до стационара и из него. Жестких правил, позволяющих быстро определить, какие затраты следует включать, не существует. При расчете «затраты на один случай» на основании первых принципов помните, что кто-то должен платить за отопление, освещение, за работу персонала и даже за бухгалтерские документы организации. Эти «скрытые затраты» известны как «накладные»; как правило, они составляют 30—60% стоимости проекта. Определение стоимости медицинских услуг, например операции и посещения врача, в Великобритании стало проще, потому что эти услуги сейчас по- 184
купаются и продаются внутри Национальной службы здоровья (NHS) по цене, которая отражает (или должна отражать) все накладные расходы. Имейте в виду, что затраты на медицинские вмешательства в одной стране часто не имеют никакого отношения к затратам на вмешательства в других странах, даже если они выражаются в виде процента от национального валового продукта. Пользу, например раннее возвращение к работе, для конкретного человека, на первый взгляд, можно измерить в терминах стоимости найма этого человека по обычной дневной норме работника. Этот подход имеет неудачное и политически неприемлемое последствие: здоровье квалифицированного работника оценивается выше, чем работника простого физического труда, человека, работающего на дому, или безработного; здоровье белого населения оценивается выше, чем (в среднем) ниже оплачиваемых этнических меньшинств. В связи с этим предпочтительнее рассчитывать стоимость дней нетрудоспособности в соответствии со средней зарплатой в стране. В анализе эффективности затрат изменения в состоянии здоровья будут выражены в естественных единицах (см. раздел 10.2). Однако только определение единиц как естественных не делает их автоматически правильными. Например, экономический анализ лечения язвы желудка двумя различными препаратами может измерять исход как «часть язв, излеченных после шестинедельного курса лечения». Лечение обоими препаратами можно сравнивать в соответствии с затратами на излеченную язву. Тем не менее, если показатели рецидивов для двух препаратов сильно различались, препарат А может быть ошибочно принят за «более экономически эффективный», чем препарат Б. Лучшей мерой исхода в этом случае могут быть «язвы, которые оставались излеченными по прошествии 1 года». В анализе выгодности затрат, где состояние здоровья выражается в таких единицах, как QALY, посмотрите на происхождение полезности (utility), используемой в анализе (см. раздел 10.2). Особенно важно, чьи показатели предпочтения использовались — больных, врачей, экономистов или правительства. Для получения детального и на удивление доступного представления о том, как «высчитывать стоимость» различных медицинских вмешательств, см. доклад программы Оценки медицинских технологий Великобритании37. 185
Вопрос 7. Рассматривалась ли относительная, а не абсолютная польза? Этот вопрос лучше всего иллюстрируется простым примером. Предположим, что препарат X стоимостью 100 фунтов за курс излечивает 10 из каждых 20 больных. Его новый конкурент, препарат Y, стоит 120 фунтов за курс лечения и излечивает 11 из 20 больных. Для препарата X затраты на 1 случай излечения составляют 200 фунтов (поскольку вы тратите 2000 фунтов, назначая препарат 20 больным и излечивая 10 больных), а для препарата Y — 218 фунтов (вы тратите 2400 фунтов на 20 больных, из них 11 человек излечиваются). Относительная стоимость препарата Y, т.е. добавочная стоимость излечения 1 дополнительного пациента, составляет не 18 фунтов, а 400, потому что это общая дополнительная сумма, которую вы должны заплатить для достижения лучших исходов по сравнению с тем, чего вы достигли бы предоставлением всем пациентам более дешевого препарата. Этот наглядный пример следует держать в голове, когда представитель фармацевтической компании будет убеждать вас, что продукт его компании «более эффективен и только немного дороже». Вопрос 8. Была ли ценность «здесь и сейчас» поставлена выше по сравнению с отдаленным будущим? Синица в руках лучше, чем журавль в небе. В здоровье, так же как и в деньгах, мы больше ценим сегодняшнюю пользу (выгоду), чем обещание такой же пользы через 5 лет. Когда затраты или польза вмешательств (или отсутствия вмешательств) предполагаются в будущем, их ценность должна быть соответственно уменьшена. Инфляция будущей пользы для здоровья по сравнению с настоящей оценивается довольно произвольно, но в большинстве анализов используется цифра около 5% в год. Вопрос 9. Проводился ли анализ чувствительности? Например, анализ выгодности затрат показывает, что вправление грыжи путем однодневного вмешательства стоит 1150 фунтов на QALY, а традиционное открытое вправление и связанное с ним пребывание в больнице стоят 1800 фунтов на QALY Однако, когда вы посмотрите на вычисления, вы удивитесь, как низко оценивалось оборудование для лапароскопии. Если вы поднимете цену этого оборудования на 25%, будет ли однодневное хирургическое вмешательство также дешевле? Может быть, а может и не быть. 186
Анализ чувствительности, или исследование «что, если», был описан в разделе 8.2 применительно к мета-анализу. Те же принципы применимы здесь: если поправка значений для учета полного спектра возможных влияний дает абсолютно другой результат, такому анализу не следует особенно доверять. Хороший пример анализа чувствительности на научно и политически важную тему см. в статье Фэроа (Pharoah) и Холлинг- ворт (Hollingworth) по затратной эффективности снижения уровня холестерина (в этой статье обсуждается сложный вопрос: кто должен получать, а кому следует отказать в эффективных, но дорогих препаратах, снижающих уровень холестерина)38. Вопрос 10. Использовались ли «глубинные» агрегатные показатели неоправданно широко? В разделе 10.2 я ввела понятие анализа последствий затрат, в котором читатель статьи может применять свои собственные показатели (значения) к различной полезности. На практике это необычный способ представления экономического анализа; чаще читатель сталкивается с анализом полезности затрат или анализом выгодности затрат, позволяющим получить композитный показатель в незнакомых единицах, которые не дают представления о преимуществах или недостатках для больного. Аналогичная ситуация возникает тогда, когда отцу говорят: «Индекс интеллекта вашего ребенка 115», хотя ему гораздо лучше сообщить: «Джон хорошо читает, пишет, считает и рисует для своего возраста». 10.4. Заключение Я надеюсь, эта глава показала, что критическая оценка экономического анализа предлагает ответы на вопросы, откуда произошли эти значения, были ли какие-либо значения упущены, а также проверку корректности итогов. Очень мало статей удовлетворяет всем критериям, приведенным в разделе 10.3 (и обобщенным в Приложении 1). Вы должны отличать экономический анализ умеренного или высокого качества от того, который способствует «напрасным затратам» («препарат X дешевле препарата Y; поэтому он более экономически эффективен»). Литература 1. Drummond M.E., Jefferson Т.О. On behalf of the BMJ Economic Evaluation Working Party. Guidelines for authors and peer reviewers of 187
economic submissions for the BMJ // BMJ. - 1996. - Vol. 313. - P. 275- 283. 2. Guyatt G.H., Nay lor C.D., Juniper E. etal. Users'guides to the medical literature. XII. How to use articles about health-related quality of life // JAMA. - 1997. - Vol. 277. - P. 1232-1237. 3. DrummondM.F., Richardson W.S., O'Brien В J. et al. Users' guides to the medical literature. XIII. How to use an article on economic analysis of clinical practice. A. Are the results of the study valid? // Ibid. — P. 1552— 1557. 4. O'Brien B.J., Hey land D.f Richardson W.S. et al. Users' guides to the medical literature. XIII. How to use an article on economic analysis of clinical practice. B. What are the results and will they help me in caring for my patients? // Ibid. - P. 1802-1806. 5. Jefferson Т., Demicheli V., Mugford M. Elementary Economic Evaluation in Health Care. — Lond.: BMJ Publications, 1996. 6. NewB. The rationing debate. Defining a package of healthcare services the NHS is responsible for. The case for// BMJ. - 1997. - Vol. 314. - P. 503-505. 7. Klein R. The rationing debate. Defining a package in healthcare services the NHS is responsible for. The case against // Ibid. — P. 506—509. 8. CulyerAJ. The rationing debate: maximising the health of the whole community. The case for// Ibid. — P. 667—669. 9. Harris J. The rationing debate: maximising the health of the whole community. The case against: what the principal objective of the NHS should really be // Ibid. - P. 669-672. 10. Williams A., Evans J.G. The rationing debate. Rationing health care by age // Ibid. - P. 820-825. 11. Lenaghan J. The rationing debate. Central government should have a greater role in rationing decisions. The case for // Ibid. - P. 967—970. 12. Harrison S. The rationing debate. Central government should have a greater role in rationing decisions. The case against // Ibid. — P. 970—973. 13. DoyalL. The rationing debate. Rationing within the NHS should be explicit. The case for// Ibid. - P. 1114-1118. 14. Coast J. The rationing debate. Rationing within the NHS should be explicit. The case against // Ibid. - P. 1118-1122. 15. Bowling A. Measuring health. — Milton Keynes: Open University Press, 1997. 16. Bradley C. (ed). Handbook of Psychology and Diabetes. — Lond.: Harwood Academic Publishers, 1994. 188
17. Gill TM.} Feinstein A.R. A critical appraisal of quality-of-life measurements // JAMA. - 1994. - Vol. 272. - P. 619-626. 18. WilsonLB., ClearyP.D. Linking clinical variables with health-related quality of life. A conceptual model of patient outcomes // Ibid. - 1995. - Vol. 273. - P. 59-65. 19. Fallowfield L.J. Assessment of quality of life in breast cancer // Acta Oncol. - 1995. - Vol. 34. - P. 689-694. 20. HickeyAM., Bury G., O'Boyle C.A. et al. A new short-form individual quality of life measure (SEIQoL-DW). Application in a cohort of individuals with HIV/AIDS // BMJ. - 1996. - Vol. 313. - P. 29-33. 21. Laupacis A., Wong C, Churchill D. The use of generic and specific quality-of-life measures in hemodialysis patients treated with erythropoietin // Control. Clin Trials. - 1991. - Vol. 12. - Suppl. - P. 168S-179S. 22. TugwellP., Bombardier C., Buchanan W.W. et al. Methotrexate in rheumatoid arthritis. Impact on quality of life assessed by traditional standard- item and individualized patient preference health status questionnaires // Arch. Intern. Med. - 1990. - Vol. 150. - P. 59-62. 23. Cairns J. Measuring health outcomes // BMJ. - 1996. - Vol. 313. - P. 6. 24. Gill T.M., Feinstein A.R. A critical appraisal of the quality of quality of life measurements // JAMA. - 1994. - Vol. 272. - P. 619-626. 25. Guyatt G.H., Cook D.J. Health status, quality of life, and the individual patient. A commentary on: Gill T.M., Feinstein A.R. A critical appraisal of the quality of quality of life measurements // JAMA. - 1994. - Vol. 272. - P. 630-631. 26. Brazier J., Deverill M., Green С et al. A review of the use of health status measures in economic evaluation // Health Technol. Assess. — 1999. — Vol. 3. No. 9. Available in full text on http://www.hta.nhsweb.nhs.uk/ 27. Ham С Priority setting in the NHS // Br. J. Health Care Manage. - 1995.-Vol. 1.-Vol. 27-29. 28. Naylor CD. Cost-effectiveness analysis: are the outputs worth the inputs? //ACP J. Club. - 1996. - Vol. 124. - P. A12-14. 29. Weinberger M., Oddone E.Z., Samsa G., Landsman P. Are health- related quality of life measures affected by the mode of administration? // J. Clin. Epidemiol. - 1996. - Vol. 49. - P. 135-140. 30. Harris J. QALY fying the value of life // J. Med. Ethics. - 1987. - Vol. 13. -P. 117-123. 31. Garni A. Alternatives to the QALY measure for economic evaluations // Support. Care Cancer. - 1997. - Vol. 5. - P. 105-111. 189
32. Hyder A.A., Rotllant G., Morrow R.H. Measuring the burden of disease: healthy life-years //Am. J. Public Health. - 1998. - Vol. 88. - P. 196-202. 33. Ustun T.B., RehmJ., Chatterji S. et al. Multiple-informant ranking of the disabling effects of different health conditions in 14 countries. WHO/ NIH Joint Project CAR Study Group // Lancet. - 1999. - Vol. 354. - P. 111-115. 34. GwatkinD.R., GuillotM., HeuvelineP. The burden of disease among the global poor// Ibid. - P. 586-589. 35. Arnesen Т., Nord E. The value of DALY life: problems with ethics and validity of disability adjusted life years//BMJ. - 1999. -Vol.319. - 1423- 1425. 36. Billingham L.J., Abrams K.R., Jones D.R. Methods for the analysis of quality-of-life and survival data in health technology assessment // Health Technol. Assess. - 1999. - Vol. 3, No. 10. Available in full text on http:// www.hta.nhsweb.nhs.uk/ 37. Johnston K, Buxton M.J., Jones D.R., Fitzpatrick R. Assessing the costs of healthcare technologies in clinical trials // Health Technol. Assess. - 1999. — Vol. 3. No. 6. Available in full text on http://www.hta.nhsweb.nhs.uk/ 38. Pharoah P.D.P., Hollingworth W. Cost-effectiveness of lowering cholesterol concentration with statins in patients with and without preexisting coronary heart disease: life table method applied to health authority population // BMJ. - 1996. - Vol. 312. - P. 1443-1448. 190
Глава 11 В отсутствие чисел (качественные исследования) 11.1. Что такое качественные исследования? Когда я впервые занялась исследованиями 15 лет назад, один уставший от работы коллега посоветовал мне: «Найдите что-нибудь для измерения и продолжайте измерять это, пока не получите множество данных; затем начните их описывать». «Что я должна измерять? » — спросила я. «Это неважно», — ответил он. Это пример ограничений количественного подхода к исследованиям (подсчет и измерения). Эпидемиолог Ник Блэк (Nick Black) утверждает, что открытие (результат) скорее будет считаться фактом, если он посчитан, т.е. выражен количественно. С научной точки зрения не существует (или почти не существует) никаких подтверждений таким общеизвестным «фактам»: 1 пара из 10 бесплодна; 1 человек из 10 — гомосексуалист; число людей, страдающих стенокардией, увеличивалось, но сейчас убывает. Тем не менее, отмечает Н. Блэк, большинство из нас с радостью некритично воспринимают такие упрощенные, сокращенные и явно некорректные утверждения, если они подкреплены числами. Исследователи, занимающиеся качественными оценками, смотрят глубже. Их цель — «изучение вещей в их естественной среде, попытки осмыслить и интерпретировать значения, которые люди им придают»2; такие исследователи используют «целостный подход, учитывающий сложности человеческого поведения»1. Интерпретативные, или качественные, исследования долгое время были областью интересов социологов. Сейчас они считаются не просто дополнительным методом, но во многих случаях предпосылкой для количественных исследований, с которыми знакомо большинство из нас. Мнение, что эти Два подхода исключают друг друга, теперь считается ненаучным. Качественные исследования нашли особое применение в области первичной медицинской помощи и исследований оказания медицинских услуг. С момента 191
публикации 1-го издания этой книги качественные исследования стали основными в доказательной медицине3-5. Для иллюстрации разделения количественных и качественных исследований доктор Сесил Хельман (Cecil Helman), автор ведущего руководства по антропологическим аспектам здоровья и болезни6, рассказала мне такую историю. Маленький ребенок прибегает из сада и взволнованно говорит: «Мама, с деревьев падают листья». «Расскажи мне подробнее» — говорит мать. «Хорошо. В течение первого часа упало 5 листьев, в течение второго — 10 листьев...». Такой ребенок станет исследователем, использующим количественный метод. Другой ребенок, когда его спросят подробности, может ответить: «Листья большие и плоские; в основном они желтые и красные; с одних деревьев они падают, с других — нет. Мама, а почему они не падали в прошлом месяце?.». Этот ребенок станет исследователем, которому ближе качественный подход. Вопросы: «Сколько родителей консультируются со своим семейным врачом, когда у ребенка немного повышена температура?» или «Каков процент курильщиков, которые пытались бросить курить?» — несомненно, требуют ответа при помощи количественных методов. Однако на вопросы: «Почему родители так беспокоятся о температуре у детей?», «Почему люди не могут отказаться от курения?» — нельзя и не следует отвечать просто измерением одного аспекта проблемы, который мы (посторонние) считаем важным. Скорее нужно наблюдать, слушать то, что говорят люди, изучать вдеи и опасения, которые они испытывают. Через какое-то время мы можем обнаружить примеры, способные изменить наше мнение. Можно начать с одного из методов, показанных во врезке 11.1, а затем продолжить далее. Врезка 11.1. Примеры Документы Пассивное наблюдение Активное наблюдение Детальные интервью Фокус-группы методов качественного исследования Изучение документальных описаний событий Систематическое наблюдение за поведением и общением в естественных условиях Наблюдение, в котором исследователь участвует как действующее лицо Обсуждение один на один с целью глубокого исследования вопросов и проблем; вопросы не готовятся заранее, но обсуждение ограничено определенной темой Метод группового опроса с использованием взаимодействий в группе для получения сведений 192
Врезка 11.2 заимствована из книги «Качественные исследования в здравоохранении»7 с разрешения Ника Мэй (Nick May) и Катрин Поуп (Catherine Pope). В ней обобщаются (несколько преувеличенно) различия между качественными и количественными исследованиями. На самом деле, мы начинаем понимать, что между этими подходами много общего8,9. Врезка 11.2. Преувеличенные различия между количественными и качественными исследованиями Социальная теория Методы Вопрос Умозаключения Отбор участников Преимущества Количественные Действие Наблюдение, интервью Что такое X (классификация) Индуктивные Теоретический Воспроизводимость (повторяемость) Качественные Структура Эксперимент, обзор Как много X (установление количества) Дедуктивные Статистический Достоверность Как показано в разделе 3.2, количественные исследования начинаются с идеи (гипотезы), затем при помощи измерений собираются данные и путем дедукции делается вывод. Качественное исследование отличается от количественного. Оно начинается с намерения изучить определенную область, накапливает «данные» (наблюдения, беседы) и приводит к идеям и гипотезам на основе этих данных при помощи индуктивных заключений. Сильная сторона количественных исследований заключается в их надежности (повторяемости), т.е. одни и те же измерения спустя время должны давать одинаковые результаты. Сильная сторона качественных исследований заключается в достоверности (близости к истине), т.е. хорошее качественное исследование действительно может прояснить суть происходящего, а не отражать лишь то, что лежит на поверхности. Достоверность качественных методов значительно увеличивается при использовании комбинации методов (примеры методов см. во врезке 11.1), процесс, называемый триангулированием. Достоверность качественного исследования можно также повысить 193
путем анализа одних и тех же данных более чем одним независимым исследователем. Те, кто мало знаком с качественными исследованиями, часто считают их не более чем наблюдением за падающими листьями. Вопросы, как начать (или не начинать) наблюдение, опрос, ведение фокус-группы и т.д. выходят за рамки этой книги. Для всех этих способов существуют свои сложные методы. Всем, кому это интересно, я могу предложить вводные710,11 или более подробные2,12 источники, указанные в конце этой главы. Методы качественных исследований оправданы при изучении неизвестной области, где важные различия плохо понимаются и выявляются и не могут контролироваться1,13. В таких обстоятельствах нельзя прийти к какой-то гипотезе, пока исследование не закончится. Эти обстоятельства можно считать изначальными, в них четко обрисована цель исследования и сформулированы специфические вопросы, на которые ищется ответ (см. далее вопрос 1 в разделе 11.2). Методы качественного исследования позволяют2 модифицировать вопрос в свете новых результатов, возникших по ходу исследования. (Как показано в разделе 5.2, рассмотрение промежуточных результатов в количественном исследовании, напротив, статистически незначимо!) Так называемый итеративный подход (изменение методов исследования и гипотезы по мере проведения исследования) дает преимущество качественным исследованиям: он чувствителен к изменчивости предмета изучения. В прошлом такой подход считали неправомочным —исследователей обвиняли, что они постоянно «передвигают свои ворота». Эта необоснованная критика. Однако, согласно наблюдениям Никки Бриттена (Nicky Britten) и его коллег, существует реальная опасность того, что «гибкость (итеративного подхода) будет утрачена, если исследователь не будет четко представлять себе, что он исследует»13. Они отмечают, что исследователи, проводящие качественные исследования, должны уделять время размышлениям, планированию и консультациям с коллегами. 11.2. Оценка статей, посвященных качественным исследованиям По своей природе качественное исследование нестандартно, неограниченно и зависит от субъективного опыта исследователя и исследуемого. Оно детально рассматривает изучаемый предмет. Представляется 194
спорной возможность создания полного проверочного листа критической оценки подобно листу в «Руководстве по чтению медицинской литературы» (см. ссылки 8—32 в главе 3). Исследователи, работающие в этом направлении, считают, что подобный проверочный лист может не быть настолько же исчерпывающим и применимым, как руководства по оценке количественных исследований, но установить некоторые основные правила вполне возможно. Приведенные далее вопросы основаны на опубликованных работах2,7,13, а также на обсуждениях с доктором Родом Тайлером (Rod Taylor), работавшим в рамках проекта CASP над детальным и обширным руководством по оценке качественных исследований. Вопрос 1. Освещает ли статья важную клиническую проблему путем правильной постановки вопроса? В разделе 3.2.1 объясняется, что в любой исследовательской статье должно быть указано, зачем было проведено исследование и какие задачи были поставлены. Качественные исследования — не исключение. В опросе или наблюдении людей только ради самого наблюдения нет никакой научной ценности. Статьи, в которых тема исследования определена не точнее чем: «мы решили опросить 20 пациентов с эпилепсией», заставляют сомневаться, что исследователям известно, что и зачем они изучают. Более благосклонно можно отнестись к статье с таким вступлением: «Эпилепсия является распространенным тяжелым заболеванием, у 20% пациентов лекарственные средства оказываются неэффективными. Про- тивоэпилептические препараты имеют неприятные побочные эффекты, и в нескольких исследованиях показано, что значительная часть пациентов не принимают препараты регулярно. Поэтому мы решили исследовать, что думают пациенты об эпилепсии, а также каковы причины, по которым они не принимают лекарства». В разделе 11.1 я отмечала, что в качественном исследовании центральный вопрос может не быть четко сформулирован вначале (итеративная природа качественных исследований), но это должно быть сделано по крайней мере к моменту написания отчета! Вопрос 2. Правильным ли был выбор качественного подхода? Если цель научной работы — исследование, интерпретация и глубокое понимание отдельного клинического вопроса, применение методов качественных исследований правильно. Если исследование направлено на достижение какой-то другой цели (определение распространенности 195
заболевания, частоты побочных эффектов, проверка гипотезы, сравнение одного препарата с другим), методы качественного исследования применять не следует. Если выдумаете, что когортное, исследование «случай—контроль» или рандомизированное исследование более пригодны для ответа на поставленный вопрос, чем использованные качественные методы, вы можете сравнить этот вопрос с примерами в разделе 3.3. Вопрос 3. Как были выбраны (а) условия и (б) участники исследования? Вернитесь к разделу 11.2, в котором статистические методы количественного исследования противопоставлены теоретическим методам качественного. Позвольте объяснить, что я понимаю под этим. В первых главах книги, в частности в разделе 4.2, я подчеркивала важность случайного отбора участников в количественном исследовании. Случайный отбор (рандомизация) гарантирует, что результаты отражают ситуацию в популяции, из которой были отобраны участники исследования. В качественном исследовании нам не важно, что происходит в популяции «в среднем». Мы хотим получить глубокое понимание состояния определенных людей или групп и соответственно должны тщательно изучить этих «определенных» участников исследования. Если мы хотим, например, изучить переживания не говорящих по-английски панджабских женщин в Великобритании, рожающих в больнице (с целью адаптировать услуги переводчиков/адвокатов к нуждам этой группы пациенток), совершенно оправдан подход намеренного выбора женщин с различными переживаниями: индуцированное родоразрешение; экстренное кесарево сечение; роды, принимаемые студентом-медиком; поздний выкидыш и т.д. Мы также можем включить беременных женщин, наблюдавшихся как у гинеколога, так и у врача общей практики, а также женщин, наблюдавшихся у акушерок. Может быть особенно важно найти женщин, которых наблюдали врачи-мужчины, хотя это сравнительно необычная ситуация. Наконец, мы можем включить женщин, рожавших в современных, высокотехнологичных роддомах, а также женщин, рожавших в сельских больницах. Разумеется, все эти детали дают «смещение» исследуемой группы от популяции в целом, но это именно то, что нам нужно. Относитесь осторожно к качественным исследованиям, в которых участники были отобраны (или кажется, что были отобраны) четко по критерию удобства. В вышеприведенном примере удобнее всего было взять 10 не говорящих по-английски пациенток из ближайшего родиль- 196
ного отделения и проинтервьюировать их, но полученная таким образом информация менее значима. Вопрос 4. Каковы взгляды самого исследователя и было ли это учтено? Поскольку качественное исследование всегда основывается на опыте реальной жизни, такую статью не следует считать «мусором» по той причине, что исследователи обсуждают культурные аспекты или личную связь с участниками исследования. Напротив, исследователей нужно поздравить с этим. Важно понимать, что в качественном исследовании невозможно избежать или проконтролировать систематическую ошибку вследствие наблюдения. Это справедливо в отношении ситуаций, когда проводится наблюдение за участниками исследования (см. раздел 11.1), но также при других формах сбора и анализа данных. Если, например, исследование посвящено переживаниям взрослых с бронхиальной астмой, живущих в сырых и перенаселенных помещениях, и влиянию жилищных условий на здоровье, то данные, полученные в фокус-группах или полуструктурированных интервью, будут отражать то, во что верит сам исследователь; важно, кем он был нанят: торакальным отделением больницы, отделом социальной работы местных органов управления или группой по защите окружающей среды. Поскольку интервью не может брать человек без идеологических или культурных взглядов, от исследователя следует требовать максимально детального описания, откуда он, чтобы соответственно интерпретировать результаты. Вопрос 5. Какие методы исследователь использовал для сбора данных и насколько детально они описаны? Как-то на протяжении 2 лет я проводила высокоточное количественное лабораторное исследование. 15 ч в неделю я занималась тем, что заполняла пробирки, а затем выливала их содержимое. Пробирки стандартным образом заполнялись, их содержимое стандартно центрифугировалось, затем они стандартно промывались. В конце концов я опубликовала результаты: около 900 ч нудной работы были сведены в одной фразе: «Уровень ревеня в сыворотке пациентов измеряли методом, описанным Bloggs и Bloggs (ссылка на статью Bloggs и Bloggs с методикой измерения уровня ревеня в сыворотке). В настоящее время я провожу много времени, выполняя качественные исследования. Могу подтвердить, что это гораздо увлекательнее. Со 197
своей исследовательской группой мы несколько лет разрабатывали комбинацию методов, позволяющих измерить убеждения, надежды, страхи и отношения пациентов-диабетиков из определенного этнического меньшинства (британские Сильхети). Например, мы разработали достоверный метод быстрого перевода и транскрибирования интервью на сильхети, сложном бенгальском диалекте, не имеющем собственной письменной формы. Мы обнаружили, что на отношения пациента сильно влияет присутствие в комнате родственников, поэтому мы искали способы взять у пациентов интервью как в присутствии родственников, так и в их отсутствие. Я могу долго описывать разработанные нами методы15. Вероятно, моя точка зрения уже ясна: часто раздел «Методы» в качественном исследовании нельзя описать кратко; часто невозможно дать отсылку на уже разработанную кем-то методику. Этот раздел может показаться растянутым и монотонным, поскольку он содержит в себе уникальную предысторию, без которой интерпретация результатов невозможна. Как и при отборе участников исследования, не существует четких правил, что стоит включать в эту часть статьи. Спросите себя, достаточно ли предоставлено информации об использованных методах. Если ответ положительный, оцените с позиций здравого смысла, являются ли эти методы разумным и адекватным способом ответа на поставленный вопрос. Вопрос 6. Какие методы исследователь использовал для анализа данных и какие меры по контролю качества? Раздел, посвященный анализу данных в качественном исследовании, позволяет отличить здравый смысл от бессмыслицы. Накопив много записей и интервью, настоящий ученый в области «качественной» науки находится только в начале пути. Просматривать собранный материал в поисках интересных цитат, подтверждающих конкретную теорию, недостаточно. Исследователь должен найти систематический способ анализа данных. Особенно он должен искать примеры случаев, которые противоречат или оспаривают общепринятую теорию. Один из таких методов — анализ содержания: взяв список кодированных категорий, каждый сегмент записанных данных относят к одной из категорий. Это можно сделать вручную или, в случае большого объема данных, с использованием компьютерных программ. Заявления на определенную тему, сделанные всеми участниками, можно сравнивать между собой и на основании этого уже делать более сложные выводы, 198
например, «правда ли, что люди, утверждавшие А, склонны также утверждать Б». В хорошем качественном исследовании могут содержаться признаки «контроля качества»: данные (или их часть) анализируются более чем одним исследователем, чтобы подтвердить что они придают эти данным одно и то же значение. В процессе анализа моего исследования убеждений у больных диабетом мы втроем по очереди анализировали записи интервью и каждому высказыванию присваивали определенный код. Затем мы сравнивали полученные результаты и спорили (иногда яростно) по поводу расхождений. Анализ выявил расхождения в интерпретации некоторых утверждений, которые мы не могли разрешить. Другими словами, наша неспособность представить единую интерпретацию по всем аспектам была сама по себе важным результатом15. Все это вполне корректная методика анализа качественных данных. Некорректно предположение, что существует единственно верный способ интерпретации данных. Утверждая подобное, часть исследователей настаивают на том, что только ученые, погруженные в данную область, истинно проникают в смысл данных; другими словами, интерпретацию не следует «триангулировать» всеми и каждым для придания видимости повышения достоверности. Вопрос 7. Заслуживают ли результаты доверия, и если да, то какова их клиническая значимость? Очевидно, мы не можем оценить результаты качественного исследования по точности измерительных приборов, не можем оценить их статистическую значимость по доверительным интервалам и числу больных, которых необходимо лечить. Чтобы определить, можно ли им верить, имеют ли они значение для практики, требуется нечто большее, чем просто здравый смысл. Один важный аспект раздела «Результаты», который можно проверить, — ссылаются ли авторы на фактически полученный материал. Предложения типа: «Врачи обычно не признают ценности клинического аудита» заслуживают большего доверия, если сопровождаются 1 —2 дословными цитатами из интервью. Результаты исследования должны быть получены независимо и поддаваться объективной проверке: утверждал участник исследования что-то или нет - все цитаты и примеры должны быть проиндексированы, чтобы было возможно проследить их происхождение до конкретного участника и условий исследования. 199
Вопрос 8. Каковы выводы и основаны ли они на результатах? В количественном исследовании, представленном в стандарте IMRAD (Введение, Методы, Результаты, Обсуждение, см. раздел 3.1), собственно результаты исследования (обычно представленные набором чисел) должны быть отделены от интерпретации этих результатов. Читатель должен с легкостью разделять то, что исследователи обнаружили, от того, что это означает. В качественном исследовании такое разделение редко возможно, поскольку результаты по определению являются интерпретацией данных. Поэтому при оценке достоверности качественного исследования необходимо спросить, интерпретировались ли результаты в соответствии со здравым смыслом и свободны ли они от личных и культурных влияний. Это может быть сложной задачей, так как обычный разговорный язык может содержать мнения, которые участники исследования могут не разделять. Сравните, например, два утверждения: «Три женщины шли к колодцу набрать воды» и «Три женщины встретились у колодца, и у каждой в руке был кувшин». Становится своеобразным клише утверждение, что выводы качественных исследований, как и любых других, должны быть «основаны на доказательствах», т.е. они должны проистекать из того, что обнаружили исследователи. Н. Мейс (N. Mays) и К. Поуп (К. Pope) предложили 3 вопроса для определения достоверности выводов качественного исследования: • Насколько хорошо анализ объясняет причины определенного поведения людей? • Насколько это объяснение понятно думающему участнику исследования? • Насколько хорошо это соотносится с тем, что нам уже известно? Вопрос 9. Можно ли перенести результаты исследования в другие клинические условия? Частая критика качественного исследования состоит в том, что его результаты относятся только к условиям, в которых они были получены. Фактически это не является более справедливым по отношению к качественному исследованию по сравнению с количественным. Вернемся к примеру с панджабскими женщинами (вопрос 3). Можно видеть, что использование теоретического выборочного исследования увеличивает приложимость его результатов. 200
11.3. Заключение Врачи традиционно придавали большое значение данным, основанным на числах, которые в действительности могли вводить в заблуждение, носить редукционистский подход или вообще не иметь отношения к реальным проблемам. Растущая популярность качественных исследований в биомедицинской науке связана с тем, что количественные методы не давали ответов или давали неправильные ответы на важные вопросы клинической помощи и медицинских услуг1. Если вы все еще считаете качественные исследования второсортными, «мягкой» наукой, значит вы не следите за последними доказательствами4,5. В 1993 г. Катрин Поуп (Catherine Pope) и Никки Бриттен (Nicky Britten) представили на конференции доклад «Препятствия качественным методам в медицине». Они привели набор отказов, полученных из редакций биомедицинских журналов. «Эти письма выявили поразительное невежество у части рецензентов в области методологии качественных исследований». Другими словами, люди, писавшие отрицательные отзывы, часто были не способны отличить хорошее качественное исследование от плохого. Забавно, что в некоторых журналах, изменивших редакционную политику после доклада К. Поуп и Н. Бриттен, стали регулярно публиковаться откровенно неудачные качественные исследования. Поэтому я надеюсь, что приведенные в этой главе вопросы и ссылки помогут представителям обеих сторон: тем, кто продолжает отвергать качественные исследования по неверным причинам, и тем, кто примкнул к «сторонникам» качественных исследований и теперь принимает статьи по неверным причинам. Обратите также внимание, что критическая оценка качественных исследований — быстро развивающаяся область науки; вопросы, поднятые в этом разделе, будут изменяться и уточняться. Литература 1. Black N. Why we need qualitative research // J. Epidemiol. Community Health. - 1994. - Vol. 48. - P. 425-426. 2. Denzin N.K, Lincoln Y.S. (eds). Handbook of Qualitative Research. - Lond.: Sage Publications, 1994. 3. Green J., Britten N. Qualitative research and evidence based medicine // BMJ. - 1998. - Vol. 316. - P. 1230-1232. 201
4. Giacomini M.K., Cook DJ. A user's guide to qualitative research in health care. Part I. Are the results of the study valid? // JAMA. - 2000. - R 357-362. 5. Giacomini M.K, Cook DJ. A user's guide to qualitative research in health care: Part II. What are the results and how do they help me care for my patients? // Ibid. - P. 478-482. 6. Helman С Culture, Health and Illness. - 4th ed. - Lond.: Butterworth Heinemann, 2000. 7. Mays N, Pope C. (eds). Qualitative Research in Health Care. — 2nd ed. - Lond.: BMJ Publications, 2000. 8. Abell P. Methodological achievements in sociology over the past few decades with specific reference to the interplay of qualitative and quantitative methods // What Has Sociology Achieved! / Eds C. Bryant, H. Becker. — Lond.: Macmillan, 1990. Q.Bradley F., Wiles R., KinmonthA.L. etal. Development and evaluation of complex interventions in health services research: case study of the Southampton Heart Integrated Care Project (SHIP). The SHIP Collaborative Group //BMJ. - 1999. - Vol. 318. - P. 711-715. 10. Pope C, MaysN. Qualitative research in health care: assessing quality in qualitative research // Ibid. - 2000. - Vol. 320. - P. 50-52. 11. Pope C, Ziebland S., Mays N. Qualitative research in health care: analysing qualitative data // Ibid. — P. 114—116. 12. Murphy E., Dingwall R., Greatbatch D. et al. Qualitative research methods in health technology assessment: a review of the literature // Health Technol. Assess. - 1998. - Vol. 2. No. 16. Available in fall text on http:// www.hta.nhsweb.nhs.uk/. 13. Britten N., Jones R., Murphy E., Stacy R. Qualitative research methods in general practice and primary care // Fam. Pract. — 1995. — Vol. 12.-P. 104-114. 14. Taylor R. - personal communication. 15. Greenhaigh Т., Chowdhury A.M., Helman С Health beliefs and folk models of diabetes in British Bangladeshis: a qualitative study // BMJ. - 1998. - Vol. 316. - P. 978-983. 16. MaysN., Pope С (eds). Qualitative Research in Health Care. — 2nd ed. - Lond.: BMJ Publications, 2000. - P. 15. 17. Pope C, Britten N. The quality of rejection: barriers to qualitative methods in the medical mindset. Paper presented at BSA Medical Sociology Group annual conference, September 1993. 2П2
Глава 12 Внедрение доказательной медицины 12.1. Сравнение сурфактантов со стероидными препаратами: социологическое исследование внедрения доказательной медицины Нежелание медицинских работников лечить больных в соответствии с последними достижениями доказательной медицины объясняется не только их невежеством или упрямством. Педиатр Вивьенн Ван Сомерен (Vivienne van Someren) на примере предупреждения респираторного дистресс-синдрома у недоношенных детей продемонстрировала барьеры к внедрению достижений науки в клиническую практику1. В 1957 г. было обнаружено, что у младенцев, рожденных ранее положенного срока (на 6 нед и более), могут развиться серьезные дыхательные нарушения. Это связано с недостатком в легких вещества, называемого сурфактантом (оно снижает поверхностное натяжение в легочных альвеолах и уменьшает сопротивление расширению). В 1960-х годах фармацевтические компании начали исследования с целью разработки искусственного сурфактанта, который можно было бы назначить младенцу, чтобы сохранить ему жизнь. Однако эффективный препарат был получен только в середине 1980-х годов. К концу 1980-х годов проведено множество рандомизированных клинических испытаний искусственного сурфактанта. В 1990 г. опубликован мета-анализ, согласно которому польза искусственного сурфактанта существенно перевешивает риск его применения. В 1990 г. началось большое клиническое испытание сурфактанта, охватившее 6000 больных (испытание OSIRIS). В это испытание были включены почти все крупные центры по оказанию интенсивной помощи новорожденным в Великобритании. В 1990 г. производитель сурфактанта получил лицензию на препарат, а к 1993 г. в Великобритании искусственный сурфак- тант получал практически каждый недоношенный ребенок. 9ПЯ
Значительно раньше разработки искусственного сурфактанта было предложено назначение дексаметазона (стероидного препарата) матерям при преждевременных родах. Действие дексаметазона основано на ускорении созревания эмбриональной легочной ткани. Его эффективность была продемонстрирована в 1969 г. на экспериментальных животных и в клинических испытаниях, результаты которых были опубликованы в 1972 г. в престижном журнале «Pediatrics». Несмотря на пользу, подтвержденную во множестве клинических испытаний и мета-анализе (опубликован в 1990 г.), распространение этой медицинской технологии шло на удивление медленно. Было показано, что в 1995 г. в США лечение получали только 12—18% матерей от общего числа, которым это лечение было показано2. Качество доказательств и выраженность эффекта для обоих методов лечения сходные3,4. Почему же педиатры внедрили методику, предотвращающую преодолимые летальные исходы, быстрее акушеров? Доктор Ван Соверен приводит множество объяснений (указаны в табл. 12.1 у. Эффект искусственного сурфактанта практически немедленный — врач, назначающий этот препарат, является свидетелем исцеления, казалось бы, неизлечимо больного ребенка. Поддержка фармацевтической промышленностью крупных (и возможно, ненужных с научной точки зрения) испытаний привела к тому, что очень немногие педиатры, начавшие самостоятельную практику в 1990-х годах, смогли избежать внедрения этой новой технологии. Напротив, стероидные препараты, особенно для беременных женщин, воспринимались пациентами как немодные и «плохие». Врачи рассматривали дексаметазон лишь как устаревшее средство для лечения пациентов с прогностически неблагоприятными заболеваниями, особенно злокачественными; механизм его влияния на легкие плода был непонятен. Акушеры, к сожалению, редко получали возможность стать непосредственными свидетелями эффекта, спасавшего жизнь больного ребенка. Вышеупомянутый пример — не единственный. Часто необходимы годы для того, чтобы эффективные методы лечения завоевали популярность5, даже среди экспертов, которые должны владеть передовыми технологиями медицинской практики6. Для того чтобы новая медицинская технология была с готовностью воспринята медицинскими работниками, должно быть удовлетворено множество условий. Доказательства эффективности должны быть четкими и высококачественными (полученными предпочтительно в крупных рандомизированных контролируемых испытаниях с хорошо определенными, клинически важными конечными 204
Таблица 12.1. Факторы, влияющие на внедрение достижений доказательной медицины, на примере предупреждения развития респираторного дистресс-синдрома у недоношенных детей [Ван Сомерен (van Someren), личная переписка] Лечение сурфактантом Пренахальная стероидная терапия Механизм действия Время до начала действия Наблюдение врача Побочные эффекты Конфликт между двумя «пациентами» Заинтересованность фармацевтических компаний Технология Широкое вовлечение клиницистов в испытания точками), пользователь технологии должен лично верить в ее эффективность. Он должен иметь возможность испытать методику в управляемых обстоятельствах. Польза вмешательства должна перевешивать возможные неблагоприятные эффекты. Конфликты интересов (например, разделение ответственности акушера между двумя пациентами) должны быть выявлены и изучены. 12.2. Изменение поведения медицинских работников Кокрановская рабочая группа по эффективной клинической практике и организации медицинской помощи (Effective Practice and Organization of Care group — EPOC; описана в главе 9) провела большую работу по 205 Корригирует дефицит сурфактанта в организме Минуты Врач видит эффект непосредственно (должен быть наготове аппарат ИВЛ) Расцениваются как минимальные Педиатр отмечает положительный эффект у «своего» пациента Высокая (запатентованный препарат; огромный потенциальный доход) «Новая» (испытания начались в конце 1980-х годов) Да Оказывает определенный эффект на созревание легочной ткани Дни Врач оценивает эффект статистически в годовых отчетах Вызывают беспокойство клиницистов и пациентов, непропорциональное фактическому риску Акушер непосредственно не отмечает положительный эффект Низкая (препарат не запатентован; низкий потенциальный доход) «Старая» (испытания начались в начале 1970-х годов) Нет
анализу исследований, определяющих эффективность/неэффективность методов воздействия на клиническую практику. Эти методы призваны способствовать эффективным инновациям и противостоять «инновациям», которые могут быть неэффективными или вредными. Обзорная работа этой группы была опубликован в виде превосходной книги под редакцией Энди Хэйнса (Andy Haines) и Анны Дональд (Anna Donald)5. Основные результаты обзора: • Стабильно эффективные методы: образовательные визиты; напоминания или подсказки (печатные или компьютеризованные), осуществляемые во время консультации; множественные одновременные вмешательства; интерактивное образование. • Эффективные в некоторых случаях методы: аудит и обратная связь (критическая оценка работы врача, передаваемая ему лично); местные опинион-лидеры (см. далее); наглядные пособия для пациентов (информационные буклеты, рекомендации). • Незначительный эффект или отсутствие эффекта: дидактические образовательные встречи; распространение печатных рекомендаций. Отдельные методы далее рассматриваются подробно. Неэффективный метод: дидактическое образование (лекции) До недавнего времени образование (по крайней мере, образование врачей) было синонимом дидактических методов обучения, которые большинство из нас помнит со школы. «Сидячий» подход к последипломному образованию (заполнение лекционных аудиторий врачами и медсестрами и приглашение экспертов для передачи «перлов мудрости») — относительно дешевый и удобный для самих преподавателей метод. Однако для обеспечения устойчивых изменений поведения врача в клинической практике этот метод неэффективен8,9. Действительно, было показано, что количество часов, проведенных на курсах непрерывного медицинского образования, находится в обратной зависимости от компетентности врача10! Наиболее эффективный метод: интерактивное образование К счастью, самым мощным стимулом к обучению среди медицинских работников является не метод «кнута и пряника», а желание быть более компетентными при лечении больных11. В настоящее время в медицинском и сестринском образовании в Великобритании (и во многих других странах) происходят существенные перемены. Они связаны с применением интерактивных методов, построенных вокруг реальных клиничес- 206
ких проблем (проблемно-ориентированное образование)12, стратегией целенаправленного обучения врачей в соответствии с потребностями медицинской службы13, улучшением командной работы14 и совершенствованием организационных элементов образования15. Неэффективный: обычные рекомендации и протоколы Один из обзоров рабочей группы EPOC подтверждает предположение о том, что создание и распространение печатных рекомендаций и протоколов в целом не изменяют подходы к лечению, если одновременно не сопровождаются другими мерами16. Основные причины разрыва между доказательствами и практикой хорошо описаны16-18, они включают: • недостаток знаний (рекомендация или протокол остаются непрочитанными или истолковываются неправильно); • недостаток доверия (врач не верит рекомендации); • опасение правового плана, давления со стороны пациента или утраты доходов; • недостаточные технические навыки (например, неумение проводить внутрисуставные инъекции или эндоскопические операции); • недостаточные ресурсы (например, ограниченный бюджет на лекарственные средства, отсутствие современного оборудования, например магнитно-резонансного томографа); • неспособность выполнить процедуру вследствие перегрузки или старых привычек, которые трудно изжить. В одном крупном исследовании главными факторами, определяющими успешное следование рекомендации или протоколу, были: понимание врачом их бесспорности (приверженность 68 против 35%, если руководство воспринималось как спорное); научной обоснованности, т.е. доказательности (приверженность 71 против 57%, если рекомендация воспринималась как недоказательная); наличие четких рекомендаций (67 против 36%, если рекомендации были неопределенными); отсутствие требований изменить существующую клиническую практику (67 против 44%, если рекомендовались существенные изменения)17. Наиболее эффективный метод: локально разработанные и собственные протоколы Важность «собственности» (работников просят следовать новым правилам, в составлении которых они принимали непосредственное участие) подчеркивалась в разделе 9.2 (см., в частности, табл. 9.1). Обширная литература по теории управления поддерживает здравое 207
предположение о том, что врачи выступят против изменений, воспринимаемых как угроза средствам существования (т.е. доходу), чувству собственного достоинства, компетентности или независимости. Поэтому вовлечение медицинских работников в разработку стандартов, по которым будет оцениваться их работа, в целом приводит к большим переменам в исходах, чем если бы они не были задействованы18. Другие исследования показали, что национальные рекомендации с большей вероятностью будут приняты при соответствии местным потребностям и приоритетам (например, если удалены разделы, не применимые в местных условиях, добавлена специфическая для данного региона информация) и удобстве в использовании (например, схемы, дополнения в руководства типа формуляров и т.д.). Интеграция рекомендаций, основанных на доказательной медицине, с местными особенностями успешно достигается разработкой схемы действий для определенных состояний. Такая схема определяет не только, какие вмешательства необходимо проводить на различных стадиях заболевания, но также и кто отвечает за проведение этих вмешательств1920. Наиболее эффективный метод: высококачественная поддержка клинических решений В последние годы увеличивается количество публикаций по использованию высоких технологий — компьютеризированных систем поддержки принятия клинических решений — систем, основанных на доказательствах. Занятой врач может обратиться к этим системам простым нажатием кнопки. В настоящее время разрабатывается множество систем поддержки принятия решений. С момента предыдущего издания этой книги был опубликован крупный систематический обзор21, обобщенный Полом Тэйлором (Paul Taylor) и Джереми Уоттом (Jeremy Wyatt) в соответствующей главе книги Getting research findings into practice22. В обзоре отмечено, что примерно в 2/3 исследований компьютерных систем поддержки принятия решений отмечалось улучшение поведения врачей - наилучшие результаты отмечались в выборе дозировок лекарственных препаратов и в активной клинической помощи (например, лечение астмы); наихудшие результаты отмечались в отношении постановки диагноза. Важная критика компьютерных систем поддержки принятий решений основана на том, что они не обязательно являются основанными на доказательной медицине22. Компьютерные «подсказки» во время консультаций или в другие важные моменты (когда врач принимает решения) являются одним из самых 208
эффективных методов для достижения позитивных изменений. К сожалению, врачи часто жалуются, что компьютерные системы трудны в работе, решают неверные задачи и дают непригодные рекомендации. П. Тэйлор и Д. Уотт предполагают: «Плохой дизайн и неудачи в рассмотрении практических аспектов клинической работы препятствуют распространению систем поддержки принятия решений. Однако системы, полностью соответствующие нынешним способам работы, никогда не были бы разработаны»22. Другими словами, имея доказательства эффективности хороших систем поддержки принятий решений в плане улучшения медицинской помощи, мы, практикующие врачи, должны прилагать больше усилий для внедрения этих хороших систем в практику. Иногда эффективный метод: аудит и обратная связь Аудит — цикл, состоящий из оценки клинической практики, внедрения стандартов, изменения практики в соответствии со стандартами и оценки происходящих в связи с этим перемен. Обратная связь состоит в сообщении врачу, как его клиническая практика (например, число гистерэктомии, выполненных на душу населения, общая стоимость лекарств, выписанных за месяц, и т.д.) в течение какого-то времени соотносится с групповой нормой (показатели, достигнутые другими врачами) или с внешним стандартом (например, консенсус экспертов). Исследования в этой области были направлены главным образом на сокращение числа необоснованных диагностических тестов (часто проводимых начинающими врачами) и улучшение назначения лекарственных средств в общей практике или в больницах7. Большинство исследований свидетельствует об умеренной эффективности этого метода23. Однако существует мнение, что этим работам особо свойственна систематическая ошибка, связанная с выборочной публикацией положительных результатов (publication bias). (Лично я никогда бы не опубликовала результаты аудита, свидетельствующие об ухудшении, несмотря на стремление улучшить медицинскую помощь!). В обзоре EPOC критикуется качество таких исследований: ни одно из первичных исследований, опубликованных на данный момент, не оценивало влияние на пациентов23. Исследования обратной связи с врачами предполагают, что этот метод эффективен в плане изменения клинической практики, если: • медицинский работник признает то, что его практика нуждается в изменении; 209
• медицинский работник имеет ресурсы и полномочия, чтобы осуществить изменения; • обратная связь предлагается в реальном времени (т.е. тогда, когда внедряются изменения), а не ретроспективно7,23. Эффективность аудита и обратной связи выше, когда они являются составной частью множественных одновременных вмешательств, например если их сочетать с интерактивными образовательными программами7. Иногда эффективный метод: стратегия социального воздействия Фармацевтическая промышленность доказала, что наиболее эффективный метод «образования» — общение один на один представителя компании с врачом. Это общение оказывает такое колоссальное влияние на клиническую практику, что его назвали «бомбардировкой хитростью»24. В США эта тактика используется правительством и известна как академическая детализация: преподаватель точно так же договаривается о встрече с врачом, но (в отличие от представителя фармацевтической фирмы) предоставляет ему объективную, полную и сравнительную информацию о лекарствах, способствуя тому, чтобы врач критически оценивал информацию. Такой подход позволяет достичь существенных перемен за короткий срок. Однако он может оказаться неэффективным, если преподаватель уделяет общению мало времени или не может понять взгляды врача перед попыткой повлиять на него26. Академическая детализация — один из примеров общей стратегии по изменению клинического поведения, известной как социальное воздействие; при социальном воздействии врач убежден, что его клиническая практика должна идти в ногу с практикой коллег или экспертов27-28. Стратегия социального воздействия включает также использование средств массовой информации, мероприятий, при которых члены группы или организации влияют друг на друга29, или при которых опинион-лидеры (т.е. влиятельные педагоги) выступают идеологами изменения клинической практики30. Недавно проведенный обзор подтверждает, что эти люди часто являются эффективной движущей силой для внедрения достижений доказательной медицины в практику31. Систематический обзор Энди Оксмана (Andy Oxman) и соавт. свидетельствует в пользу социальных методов влияния, однако в нем также приводится несколько примеров так называемых стратегий социального влияния, в действительности никакого влияния не оказывающих 32. 210
Иногда эффективный метод: стратегии, осуществляемые пациентами Давление со стороны пациентов и общественности является важным элементом, стимулирующим изменение клинической практики. Многие организации выпускают для пациентов информационные буклеты, основанные на доказательной медицине. Примеры таких буклетов: серия «Эффективность имеет значение» (основана на Бюллетене эффективной медицинской помощи, который издается в Йорке33), буклет «Сквозь лабиринты» (информация по беременности и деторождению основывается на Кокрановской базе данных и других источниках), брошюра благотворительной диабетической организации Великобритании «Какую помощь при диабете можно ожидать?»35. Имеется множество электронных информационных пособий по специфическим состояниям (интерактивные видеодиски36, Интернет-ресурсы37). Тем не менее убедительные данные, что такие средства изменяют соотношение клинических решений в сторону основанных на доказательной медицине (а не просто в сторону решений, понятных и согласованных с больным), отсутствуют38. Мощь информированного выбора пациента можно усилить. Например, модель «подсказанной медицинской помощи» при диабете означает следующее: каждые 6 мес пациентам посылают структурированный контрольный список мероприятий (например, измерение артериального давления, осмотр стоп) и рекомендуют просить врача об их выполнении39. Представление о роли пациентов в достижении научно обоснованной медицинской практики и примеры, как информированный пациент может влиять на поведение врача, можно получить из главы Санди Оливера (Sandy Oliver) и соавт.38 и книги Фулфорда (Fulford) и соавт. Практика в пациент-ориентированной медицинской помощи40. Иногда эффективный метод: правила и стимулы Управленческие стратегии влияния на поведение врачей включают юридические шаги (например, отзыв лицензии на препарат) или изменение политики учреждения (например, утверждения ограниченного перечня препаратов и оборудования). Однако чаще они направлены на создание препятствий для нежелательных (необоснованных) вмешательств (например, для назначения определенных диагностических тестов требуется заключение специалиста) или, наоборот, облегчения выбора обоснованных вмешательств (например, облегчение заказов тех лекарственных форм, которые отражают предпочтительные дозировки антибиотиков)41. 211
Финансовые стимулы побуждают врачей проводить рекомендованные вмешательства (например, взятие мазка из шейки матки врачами общей практики42) и отказываться от нерекомендованных43. Такие методы, однако, могут противоречить идеологии привлечения врачей к разработке стандартов. Кроме того, имеются доказательства, что административные и финансовые методы, хотя и приводят к изменениям в клинической практике, не всегда вызывают желательные исходы у пациентов7. Например, политика ограничений, направленная на уменьшение назначения «ненужных» лекарств пожилым людям, достигла своей цели — сокращения расходов на лекарства, но привела к повышению обращения таких людей в дома престарелых44. Это говорит о том, что внедрение доказательной медицины не следует рассматривать в одном измерении как панацею45. Подводя итог, отметим, что методов, направленных на изменение клинической практики, много. А. Оксман и соавт. после изучения 102 исследований различных методов воздействия сделали такой вывод: «Волшебных средств повышения качества медицинской помощи не существует. Однако есть большое количество вмешательств, которые могут привести к улучшению медицинской практики и исходов у пациентов»32. Заключение отражает суть этой интересной проблемы, хотя с момента его написания было опубликовано много новых исследований и систематических обзоров. 12.3. Управление изменениями для достижения эффективной клинической практики: данные исследований по организационным изменениям Несколько проектов в Великобритании систематически отслеживали внедрение доказательной медицины в вопросы организации здравоохранения. • GRiPP (Getting Research into Practice and Purchasing — внедрение исследований в практику и вопросы закупок), осуществлялся Региональными органами здравоохранения46. • РАСЕ (Promoting Action on Clinical Effectiveness — повышение клинической эффективности), осуществлялся Королевским фондом47. • PLIP (Purchaser Led Implementation Projects — проекты внедрения, руководимые покупателями), осуществлялся Региональным офисом North Thames48. Все эти проекты исходили из того, что неразумно полагаться на один способ действий, например разработку клинических рекомендаций, а не- 212
обходимо использовать весь набор всевозможных средств, включая стимулы, образовательные программы, академическую детализацию, разработку местных рекомендаций и т.д. Через эти программы было запущено множество отдельных проектов. Проект GRiPP включал использование стероидов при преждевременных родах; координацию лечения пациентов с инсультом; осуществление дилатации и выскабливания у женщин с тяжело протекающими менструациями; применение втулки у детей с закрытым наружным слуховым проходом. 12 проектов программы РАСЕ включали инициативы по улучшению лечения гипертонии врачами общей практики и лечение трофических язв на нижних конечностях в больнице скорой помощи. Проекты PLIP также были тематическими: они включали совершенствование вторичной профилактики ишемической болезни сердца в общей медицинской практике, разработку рекомендаций по эради- кации Н. pylori — микроорганизма, вызывающего развитие язвы желудка. Во врезках 12.1 (GRiPP), 12.2 (РАСЕ) и 12.3 (PLIP) приведены данные, полученные в результате строгого анализа с участием различных Врезка 12.1. Выводы, полученные в проекте GRiPP 1. Предпосылками для изменения клинической практики являются данные из национальных научных исследований и четкое локальное обоснование изменений. 2. Необходимы консультации и вовлечение всех заинтересованных сторон во главе с авторитетным лидером. 3. Должен поддерживаться последовательный переход изменений в одном секторе здравоохранения (например, в неотложной медицинской помощи) на другие (например, в общей практике, амбулаторной помощи). 4. Должна быть доступна информация о текущей практике и эффектах изменения. 5. Отношения между покупателями и поставщиками должны быть хорошими. 6. Контракты (например, между покупателями и поставщиками) лучше всего использовать для подведения итога соглашения, когда уже есть договоренность, а не для определения вопросов для обсуждения. 7. Научно обоснованная практика не обязательно приводит к экономии финансовых ресурсов. 8. Внедрение научно обоснованной практики обычно занимает больше времени, чем ожидается. 213
47 Врезка 12.2. Препятствия переменам, определенные в проекте РАСЕ . 1. Недостаточное понимание значимости перемен. Врачи полагают, что нет потребности в переменах и/или что их практика уже является научно обоснованной. 2. Недостаток ресурсов. Врачи полагают, что они не имеют времени или денег для участия в переменах. 3. Краткосрочная перспектива. Медицинские работники имеют краткосрочную мотивацию, например, в связи с тем, что обычно заключают контракт с медицинским учреждением на 1 год; это может находиться в противоречии с временным периодом, необходимым для осуществления перемен. 4. Конфликт приоритетов. Медицинские работники считают первоочередными другие задачи, например сокращение листов ожидания, рассмотрение специфичных жалоб пациента и т.д. 5. Сложности при измерении исходов. Результаты лечения трудно измерить, однако многие ошибочно стремятся измерять успех проекта исходя из экономической выгоды для здравоохранения. 6. Недостаток необходимых навыков. Для эффективной клинической практики могут быть необходимы новые навыки, в частности навыки поиска и критической оценки литературы. 7. Отсутствие опыта мультидисциплинарной работы. Врачи, работающие в различных областях, не могут привыкнуть работать совместно в команде. 8. Неадекватные или двусмысленные данные. Если достоверность или уместность литературы вызывает сомнения, добиться перемен более сложно. 9. Извращенные стимулы. Медицинские работники могут испытывать влияние, противоположное клинической эффективности, например посредством «научного» проекта фармацевтической компании или из-за устаревшего пункта схемы оплаты медицинского обслуживания. 10. Необходима напряженная работа. Изменение практики требует большого энтузиазма, упорной работы и дальновидности руководителей проекта. 214
Врезка 12.3. Выводы, полученные на основании проекта PLIP 1. Найти организации и людей, которые уже «созрели». «Почва» должна быть плодородна для прорастания семян. Усилия будут потрачены впустую и исполнители проекта станут деморализованными, если организациям предлагают идею, время которой еще не настало. 2. Выбрать подходящий предмет. Идеальный предмет для программы по переменам нужно выбирать с учетом местного масштаба, он должен быть основанным на глубоких научных фактах и способным продемонстрировать ощутимую пользу за короткий период. 3. Правильно назначить исполнителей проекта и дать им необходимое время. Настойчивость, индивидуальность, мотивация, энтузиазм и неагрессивный стиль являются необходимыми (но не достаточными) составляющими успеха. Перегруженный исполнитель проекта с противоречивыми требованиями к своему времени и с ограниченным контрактом склонен к отвлечению и поиску другой работы. 4. Найти исполнителя проекта в сфере, на которую вы хотите повлиять. Если проект затрагивает, к примеру, первичную медицинскую помощь, исполнитель проекта должен работать в этой сфере. Независимость от установленных в учреждении правил и коммерческих компаний может увеличить доверие и расположенность к работе. 5. Основываться на существующих структурах и системах. Если оперативные группы (типа контрольных консультативных или образовательных групп) уже существуют и занимаются организацией мероприятия, то необходимо подключаться к ним, а не организовывать отдельные программы. 6. Заполучить ключевых организаторов. Подлинная поддержка со стороны влиятельных лиц, включая спонсоров, опинион-лидеров и людей, находящихся на стратегических должностях, является решающим фактором. 7. Участвовать в постоянном процессе критического анализа. Трудно находить время на размышления о том, что сработало, что не сработало, что мы выяснили, куда мы идем теперь, что случится, если мы осуществим действие X, и т.д. Однако это очень помогает удерживать проект в надлежащем русле. 8. Найти подход к проблеме. Гибкость и оперативность особенно важны, когда кажется, что дела идут плохо. Например тогда, когда люди говорят, что у них недостаточно времени или ресурсов, чтобы разрешить задачу. Подумайте о возможности провернуть дело по-иному, продлить крайние сроки, найти компромисс в решении проблемы, предложить дополнительные рабочие руки и т.д. 9. Продвигать совместную работу. Если проект держится полностью на энтузиазме ключевой фигуры, он почти наверняка «пойдет ко дну», если последний отойдет от дела. Наличие по крайней мере двух человек, ответственных за проект, и построение более широкой команды, ведущей проект, поможет гарантировать стабильность. 215
12.4. Научно обоснованная организация: вопросы культуры В публикации Британской национальной ассоциации руководителей здравоохранения (UK National Association of Health Authorities and Trusts - NAHAT), озаглавленной «Действовать в соответствии с доказательствами», отмечается: «только руководители здравоохранения, менеджеры и врачи, работающие с ними, имеют возможности (и ответственность), чтобы обеспечить трансформацию научных достижений в реальное, значимое и устойчивое улучшение медицинской помощи» . В отчете подчеркивается важность обучения и мотивации менеджеров и врачей к использованию научных доказательств как основы для ежедневного принятия решений. В нем также предлагаются советы для организаций, стремящихся к укреплению научно обоснованной практики. На основе отчета NAHAT в конце Приложения 1 приведен список действий для доказательного решения клинических вопросов и вопросов закупок для организаций здравоохранения49. Прежде всего ключевые фигуры в организациях, особенно руководители, члены правления и старшие врачи, должны создать среду доказательной медицины, где ожидается, что принятие решений будет базироваться на лучших из имеющихся научных фактов. Высококачественные, современные информационные источники (типа Кокрановской электронной библиотеки и базы данных Medline) должны быть везде доступны. В идеале пользователи должны иметь доступ ко всем источникам посредством одного устройства. Информация относительно клинической и экономической эффективности специфических технологий должна производиться, распространяться и использоваться совместно. Лица, которые сортируют и распространяют эту информацию в пределах организации, должны знать, кто будет ее использовать, как она будет применяться, и уметь соответствующим образом смоделировать ее представление. Им следует также установить стандарты и оценить качество научных данных, которые они распространяют. Лица, получающие информацию по эффективности, должны иметь специальную подготовку, чтобы использовать эту информацию наилучшим образом. Проекты, описанные в разделе 12.3, дают важную практическую информацию, но есть еще очень многое, что необходимо знать о практических сторонах внедрения научных достижений в работу крупных (и малых) организаций. Как подчеркивается в докладе NAHAT, от- 216
дельно финансируемые экспериментальные проекты по некоторым клиническим проблемам, входящие в рамки проектов GRiPP, PACE или PLIP, полезны для того, чтобы продемонстрировать, что перемены возможны. Они предлагают обучение на рабочем месте внедрению научных достижений, но руководители здравоохранения должны идти дальше этой экспериментальной стадии и работать в направлении развития организационной среды, в которой клиническая и экономическая эффективность являются частью диалога между покупателями и провайдерами медицинских услуг, между менеджерами и клиницистами. Изменение организационной среды — не простая задача. Ключевой шаг состоит в создании окружения, в котором поощряются энтузиазм и квалификация. Согласно Дэвису (Davies) и Нутли (Nutley): «Обучение — это процесс, достигаемый людьми, но "обучающиеся организации" могут максимизировать, мобилизовать и сохранить этот потенциал обучения»50. Базируясь на работе Сенджа (Senge)51, они предлагают пять ключевых особенностей обучающихся организаций: 1. Содействие продвижению за рамки традиционных профессиональных или ведомственных границ (подход Сенджа, названный «мышлением открытых систем»). 2. Внимание к персональным потребностям обучающихся. 3. Обучение в прочных командах, так как в значительной степени посредством команды организации достигают своих целей. 4. Изменение способа, которым люди осмысливают проблемы, т.е. применение новых, творческих подходов к старым проблемам. 5. Раздельное видение с понятными достоинствами и ясным стратегическим направлением так, чтобы штат работников сплотился вокруг общей цели. 12.5. Теории изменений Существует обширная литература по внедрению доказательной медицины в клиническую практику. Она представлена в виде проверочных списков или, например, в виде «Десяти подсказок для достижения успеха». Контрольные списки и подсказки, как вы можете судить по врезкам 12.1, 12.2 и 12.3 и Приложению 1, могут быть полезными, но вам необходимо связать с ними ваш собственный жизненный опыт. Другие главы в этой книге предполагают, что послания доказательной медицины основаны на очень отчетливых (по мнению некоторых — слишком отчетли- 217
вых!) элементах теории. Делегат одной конференции когда-то сказал мне: «Нам нужен Дейв Саккет в управлении переменами». Литература по управлению предлагает нам не одну, а десятки различных концептуальных основ для анализа перемен, оставляя неспециалиста в замешательстве — с чего начинать. Я постаралась осмыслить имеющееся многообразие теорий, что привело меня к написанию серии из шести статей, недавно опубликованных в Британском журнале общей медицинской практики (British Journal of General Practice) под названием «Теории перемен». В этих статьях я исследовала шесть различных моделей профессиональных и организационных изменений для достижения эффективной клинической практики. 1. Теория обучения взрослых основывается на точке зрения, что взрослые обучаются посредством цикла размышлений и действий. Это объясняет, почему обучение так неэффективно (см. с. 206) и почему собственный практический опыт с возможностью его осмысления и обсуждения с коллегами является фундаментальной основой как для обучения, так и для достижения перемен52. 2. Теория психоанализа — известная концепция 3. Фрейда о бессознательном, которое влияет (а иногда действует вопреки) на наше рациональное сознательное. Сопротивление переменам иногда может иметь мощные и глубокие эмоциональные объяснения53. 3. Теория взаимоотношений групп основана на исследованиях специалистов Лондонской Тавистокской клиники (London's Tavistock Clinic) о том, как команды работают (или не могут работать) в рабочей среде. Взаимоотношения в пределах команды, а также между командой и окружением могут действовать как барьеры (или как катализаторы) для перемен54. 4. Антропологическая теория основывается на точке зрения, что учреждения имеют свою организационную среду, т.е. способы действий и размышлений о проблемах, резистентные к переменам. Предложение незначительных перемен в соответствии с научно обоснованной практикой (например, требование к старшим врачам постоянно отслеживать научные факты в Кокрановской базе данных) может в действительности серьезно угрожать организационной среде учреждения (в котором, например, мнение старшего врача традиционно имело почти священный статус)55. 5. Организационная стратегия основывается на точке зрения, что ключевые перемены в организации требуют для их осуществления стремления больше чем одного человека. Приверженность пере- 218
менам должна отмечаться среди большинства работников, она должна сопровождаться систематическими изменениями в видимых структурах организации, ролях и обязанностях ключевых лиц, информации и системах коммуникации56. 6. Теория сложности основана на том, что большие организации (типа Национальной службы здравоохранения Великобритании) значительно зависят от динамических, постоянно меняющихся и местных взаимоотношений, личностных контактов. Поддержка ключевых межличностных отношений, улучшение качества и своевременность информации, доступной в местном масштабе, часто являются более существенными факторами в достижении стабильных перемен, чем указания сверху или участие в национальных или региональных программах57. Я не одинока в поиске полезных теорий для объяснения и продвижения перемен. Одной из проблем в «учебном» подходе к изменению клинической практики является следующее предположение: люди ведут себя определенным образом только потому, что испытывают недостаток в знаниях; таким образом, передача знаний изменит их врачебную практику. В кратком и авторитетном критическом анализе Тереза Марто (Theresa Marteau) и соавт. делают вывод, что эта модель не имеет ни теоретических обоснований, ни эмпирических доказательств58. Они считают, что информация необходима для профессиональных перемен в медицинской практике, но этого редко бывает достаточно. Предлагаемые Т. Марто и соавт. психологические теории, которые могли бы предложить более эффективные образовательные стратегии, включают следующее. • Поведенческое обучение основывается на том, что поведение более вероятно будет повторяться, если оно связано с наградой, и менее вероятно — если оно наказуемо. • Социальное познание. При планировании действия люди спрашивают себя: «Оправдывается ли его стоимость?», «Что другие люди думают об этом? » и «Действительно ли я способен к достижению цели? ». • Стадии моделей перемен. Предполагается, что все индивидуумы со временем склонны признавать, что есть необходимость в переменах посредством устойчивого внедрения рекомендуемой медицинской практики58. Как я уже говорила, существует много дополнительных теорий, определяющих барьеры для достижения лучшей клинической практики. Самый важный совет мог бы быть следующий: «Не пробуйте объяснить или предсказывать эти барьеры, используя только одну из теорий!». 219
12.6. Приоритеты для дальнейших исследований процесса внедрения доказательной медицины После успеха проекта GRiPP Министерство здравоохранения Великобритании определило дальнейшие исследования по внедрению доказательной медицины в качестве главного элемента стратегии развития здравоохранения. Обучение методологии научного исследования стало обязательным требованием для всех врачей, проходящих профессиональное обучение60. Центральный исследовательский комитет Национальной службы здравоохранения определил 20 приоритетных областей, в рамках которых особенно приветствуются новые научные проекты61. Вот некоторые из этих областей. • Кто является участником процесса внедрения? Для изучения относительной роли медицинских работников, покупателей, поставщиков, общественности, средств массовой информации, коммерческих организаций и чиновников в процессе внедрения требуются дальнейшие исследования. • Что является рычагом и что является препятствием для перемен? Исследования могли бы изучить эффективность в плане достижения перемен контрактов (как это используется на внутреннем рынке в Великобритании), финансовых стимулов, профессиональных и административных воздействий, организационных стимулов и препятствий. • Какие вмешательства могут использоваться для достижения перемен? Необходимо исследование комплекса мероприятий, включая рекомендации, клинический аудит, обратную связь, выработку консенсуса, опинион-лидеров, давление со стороны больных, модернизацию процессов, поддержку принятия решений, системы напоминания. • Каким образом характер доказательств влияет на процесс внедрения? Необходимы исследования характера доказательств, лежащих в основе настоящей и желательной клинической практики; исследования пригодности, значимости и уместности РКИ, использования наблюдательных исследований, качественных данных; исследования интеграции доказательств из несопоставимых источников и передачи доказательств из одних условий в другие. В настоящее время в Великобритании продолжаются исследования этих вопросов.
Литература 1. Van Someren V. Changing clinical practice in the light of the evidence: two contrasting stories from perinatology // Getting Research Findings into Practice / Eds A. Haines, A. Donald. - Lond.: BMJ Publications, 1998. - P. 143-151. 2. Anonymous. Effect of corticosteroids for fetal maturation on perinatal outcomes. NIH Consensus Development Panel on the Effect of Corticosteroids for Fetal Maturation on Perinatal Outcomes // JAMA. - 1995.-Vol. 273.-P. 413-418. 3. Crowley P. Corticosteroids prior to preterm delivery (updated January 1996) // Cochrane Database of Systematic Reviews. — Lond.: BMJ Publications, 1996. 4. Halliday H.L. Overview of clinical trials comparing natural and synthetic surfactants // Biol. Neonate. - 1995. - Vol. 67. - Suppl. I. - P. 32-47. 5. Haines A., Donald A. Looking forward: getting research findings into practice: making better use of research findings // BMJ. — 1998. — Vol. 317.-P. 72-75. 6. Antmann EM., Lau J., Kupelnick B. et al. A comparison of the results of meta-analyses of randomized controlled trials and recommendations of clinical experts // JAMA. - 1992. - Vol. 268. - P. 240-248. 7. Bero L., Grilli R., Grimshaw J. et al. Closing the gap between research and practice // Getting Research Findings into Practice / Eds A. Haines, A. Donald. - Lond.: BMJ Publications, 1998. - P. 27-35. 8. Davis D.A., Thomson M.A., Oxman A.D. Changing physician performance: a systematic review of the effect of CME strategies // JAMA. - 1995. - Vol. 274. - P. 700-705. 9. Stanton F., Grant J. The Effectiveness of Continuing Professional Development. — Lond.: Joint Centre for Medical Education, Open University, 1997. 10. Caulford P.G., Lamb S.B., Kaigas T.B. et al. Physician incompetence: specific problems and predictors //Acad. Med. - 1993. - Vol. 270. - Suppl. - P. 16-18. 11. Fox R.D. Changing and Learning in the Lives of Physicians. — N.Y.: Praeger, 1989. 12. VernonD.T., Blake R.L. Does problem-based learning work? A metaanalysis of evaluative research //Acad. Med. — 1993. — Vol. 68. — P. 550- 563. 221
13. Bashook P.G., Parboosingh J. Continuing medical education: recertification and the maintenance of competence // BMJ. — 1998. — Vol. 316.-P. 545-548. 14. Elwyn G. Professional and practice development plans for primary care teams//BMJ.- 1998.-Vol. 316. - P. 1619-1620. See also ensuing correspondence in BMJ. - 1998. - Vol. 317. - P. 1454-1455. 15. Koeck С Time for organizational development in healthcare organizations // Ibid. - Vol. 317. - P. 1267-1268. 16. Freemantle N., Harvey E.L., Wolf F. et al. Printed educational materials: effects on professional practice and health care outcomes // The Cochrane Library, Issue 1. — Oxford: Update Software, 2000. 17. GrolR., Dalhuijsen J., Thomas S. et al. Attributes of clinical guidelines that influence use in general practice: observational study // BMJ. — 1998.-Vol.317.-P. 858-861. 18. Report from General Practice 26. The Development and Implementation of Clinical Guidelines. — Lond.: Royal College of General Practitioners, 1995. 19. Robins A., Gallagher A., Rossiter M.A., Lloyd B.W. Evaluation of joint medical and nursing notes with pre-printed prompts // Qual. Health Care. - 1997. - Vol. 6. - P. 192-193. 20. Riley К Care pathways: paving the way // Health Serv. J. - 1998. - 26/3/98.-P. 30-31. 21. Hunt D.L., Haynes R.B., Hanna S.E., Smith K. Effects of computer- based clinical decision support systems on physician performance and patient outcomes: a systematic review//JAMA. - 1998. - Vol. 280. - P. 1339. 22. Taylor P., WyattJ. Decision support//. Getting Research Findings into Practice / Eds A. Haines, A. Donald. - Lond.: BMJ Publications 1998. - P. 86-98. 23. Thompson O'Brien M.A., Oxman A.D., Davis D.A. et al. Audit and feedback: effects on professional practice and health care outcomes // The Cochrane Library, Issue 1. — Oxford: Update Software, 2000. 24. Shaughnessy A.F., Slawson D.C. Pharmaceutical representatives // BMJ. - 1996. - Vol. 312. - P. 1494-1495. 25. Avorn J., Soumerai S.B. A new approach to reducing suboptimal drug use //JAMA. - 1983. - Vol. 250. - P. 1728-1732. 26. Ray W.A. Reducing antipsychotic drug prescribing for nursing-home patients: a controlled trial of the effect of an educational visit //Am. J. Public Health. - 1987. - Vol. 77. - P. 1448-1450. 222
27. Wyatt J., Paterson-Brown S., Johanson R. et al.Trial of outreach visits to enhance use of systematic reviews in 25 obstetric units // BMJ. — 1998. - Vol. 317. - P. 1041-1046. 28. Thompson O'Brien M.A., Oxman A.D., Haynes R.B. et al. Educational outreach visits: effects on professional practice and health care outcomes // The Cochrane Library, Issue 1. - Oxford: Update Software, 2000. 29. Barnes R.D., Bell S. Interpractice visits by general practitioners // Aust. Fam. Physician. - 1994. - Vol. 23. - P. 1922-1928. 30. Lomas J., Enkin M., Anderson G.M. et al. Opinion leaders vs audit and feedback to implement practice guidelines: delivery after previous cesarean section // JAMA. - 1991. - Vol. 265. - P. 2202-2207. 31. Thompson O'Brien M.A., Oxman A.D., Haynes KB. et al. Local opinion leaders: effects on professional practice and health care outcomes // The Cochrane Library, Issue 1. — Oxford: Update Software, 2000. 32. Oxman A.t Davis D., Haynes R.B., Thomson M.A. No magic bullets: a systematic review of 102 trials of interventions to help health professionals deliver services more effectively or efficiently // Can. Med. Assoc. J. — 1995. — Vol. 153.-P. 1423. 33. Effective Health Care Bulletins. Published by Universities of Leeds and York. Nuffield Institute for Health, 71—75 Clarendon Rd, Leeds LS2 9PL. 34. National Childbirth Trust, King's Fund. Through the maze: a comprehensive guide to sources of research-based information on pregnancy, birth and post-natal care. Obtainable from the National Childbirth Trust, Alexandra House, Oldham Terrace, Acton, LondonW3 6HN, price ?3.Website http://www.nct-online.org. 35. British Diabetic Association. What diabetic care to expect. Obtainable from British Diabetic Association, 10 Queen Anne St, London WC1. 36. KasperJ., Mulley A., WennbergJ. Developing shared decision-making programs to improve the quality of health care // Qual. Rev. Bull. — 1992. — Vol. 18.-P. 182-190. 37. Coiera E. The Internet's challenge to health care provision // BMJ. - 1996.-Vol. 312.-P. 3-4. 38. Oliver S., Entwhistle V., Hodnett E. Roles for lay people in the implementation of health care research // Getting Research Findings into Practice / Eds A. Haines, A. Donald. - Lond.: BMJ Publications 1998. - P. 43-51. 223
39. HurwitzB., Goodman С, YudkinJ. Promptingthe care of non-insulin dependent (type II) diabetic patients in an inner city area: one model of community care // BMJ. - 1993. - Vol. 306. - P. 624-630. 40. Fulford K.W.M., Ersser S., Hope T. Essential Practice in Patient- Centered Care. — Oxford: Blackwell Science, 1996. ,41. Avorn J., Soumerai S.B., Taylor W. et al. Reduction of incorrect antibiotic dosing through a structured educational order form//Arch. Intern. Med. - 1988. - Vol. 148. - P. 1720-1724. 42. Ridsdale L. Evidence Based General Practice: a Critical Reader. - Lond.: W.B. Saunders, 1995. - P. 59-76. 43. Hickson G.B., Altemeler W.A., PerrinJM. Physician reimbursement by salary or fee-for-service: effect on physician practice behaviour in a randomized prospective trial // Pediatrics. — 1987. — Vol. 80. — P. 344- 350. 44. Soumerai S.B., Ross-Degnan D.} Avorn J. et al. Effects of Medicaid drug-payment limits on admission to hospitals and nursing homes // N. Engl. J. Med. - 1991. - Vol. 325. - P. 1072-1077. 45. Greenhaigh T. «Is my practice evidence based?» (editorial) // BMJ. — 1996. - Vol. 313. - P. 957-958. 46. Dunning M., McQuay H., Milne R. Getting a GRiPP // Health Serv. J. - 1994. - Vol. 104. - P. 18-20. 47. Dunning M., Abi-aad G.f Gilbert D. et al. Turning Evidence into Everyday Practice. — Lond.: King's Fund, 1999. 48. Evans D., Haines A. (eds). Implementing Evidence Based Changes in Healthcare. - Oxford: Radcliffe Medical Press, 2000. 49. Appleby J., Walshe K, Ham С Acting on the Evidence: a Review of Clinical Effectiveness: Sources of Information, Dissemination and Implementation. — Birmingham: NAHAT, 1995. 50. Davies H.T.O., Nutley S.M. Developing learning organizations in the new NHS // BMJ. - 2000. - Vol. 320. - P. 998-1001. 51. Senge P. The Fifth Discipline: the an and Practice of the Learning Organization. — N.Y.: Doubleday, 1994. 52. Greenhaigh T. Change and the individual 1: adult learning theory// Br. J. Gen. Pract. - 2000. - Vol. 50. - P. 76-77. 53. Greenhaigh T. Change and the individual 2: psychoanalytic theory // Ibid.-P. 164-165. 54. Greenhaigh T. Change and the team: group relations theory// Ibid. — P. 252-253. ООЛ
55. Greenhaigh T. Change and the organization 1: culture and context // Ibid. -P. 340-341. 56. Greenhaigh T. Change and the organization 2: strategy // Ibid. - P. 424-425. 57. Greenhaigh T. Change and complexity: the rich picture // Ibid. — P. 514-515. 58. Marteau Т., Snowden A., Armstrong D. Implementing research findings in practice: beyond the information deficit model // Getting Research Findings into Practice / Eds A. Haines, A. Donald. — Lond.: BMJ Publications, 1998. - P. 36-42. 59. Department of Health. Research or health. - London: HMSO, 1993. 60. Research and Development Task Force. Supporting Research and Development in the NHS (Culyer Report). - Lond.: HMSO, 1994. 61. Advisory Group to the NHS Central Research and Development Committee. An Agenda for the Evaluation of Methods to Promote the Implementation of Research Findings in the NHS. — Leeds: Department of Health, 1995. 225
Приложение 1 Проверочный лист. Поиск, критическая оценка и внедрение доказательств Если это не отмечено особо, эти проверочные листы могут применяться в отношении рандомизированных контролируемых испытаний, других контролируемых клинических испытаний, когортных исследований, исследований «случай—контроль» и любых других исследований. Является ли моя клиническая практика обоснованной на доказательствах? Проверочный лист апя оценки отдельной клинической практики (см. главу 1) 1. Определил ли я клинические, психологические, социальные и другие проблемы с учетом взглядов пациентов. 2. Провел ли я достаточно компетентное и полное обследование для установления вероятности различных диагнозов? 3. Учел ли я дополнительные проблемы и факторы риска, которые могут требовать одновременного внимания? 4. Провел ли я, где это необходимо, поиск доказательств (в систематических обзорах, клинических рекомендациях, клинических испытаниях и других источниках), относящихся к данной проблеме? 5. Провел ли я оценку и учет полноты, качества и силы доказательств? 6. Применял ли я достоверные и подходящие доказательства к этому определенному набору проблем путем, который научно оправдан и интуитивно ясен. 7. Представил ли я все «за» и «против» пациенту тем путем, который ему понятен, и включил ценности пациента в итоговое решение. 8. Устроил ли я review, recall referral или какую-либо другую помощь при необходимости? 226
Проверочный лист для поиска в Medline и Кокрановской библиотеке (см. главу 2) 1. Для поиска статьи, которая, как вы знаете, существует, ищите по словам в тексте (в названии, аннотации) или используйте суффиксы полей для поиска по автору, названию, организации, журналу и году публикации. 2. Для максимально чувствительного поиска по определенному предмету ищите как по заголовкам MeSH [с опцией explode (расширить)], так и по словам в тексте (названии и аннотации), затем объедините оба поисковых запроса, используя булевский оператор «or» («или»). 3. Для фокусированного (специфического) поиска на определенную тему проведите два или более чувствительных поиска (как показано в пункте 2) и объедините их, используя булевский оператор «and» («и»). 4. Для поиска статей высокого методологического качества вставьте доказательный qualifing string для терапевтических вмешательств, этиологии, диагностических процедур или эпидемиологии (см. Приложение 2) и/или используйте максимально чувствительные стратегии поиска рандомизированных испытаний, систематических обзоров и мета-анализов (см. Приложение 3). 5. Уточните (refine) поиск. Например, для исключения ненужных материалов используйте булевский оператор «not» («не»). 6. Поскольку ручное индексирование статей подвержено ошибке, старайтесь использовать подрубрики только тогда, когда это единственный практический способ ограничения вашего поиска. 7. Ограничивая большой набор, просмотрите последние 50 аннотаций самостоятельно, не ожидайте, что программа сама выдаст вам несколько самых лучших статей. Проверочный лист для определения, о чем эта статья (см. главу 3) 1. Для чего было проведено это исследование (на какой клинический вопрос оно отвечает)? 2. Каков тип исследования? • Первичное исследование (эксперимент, рандомизированное контролируемое испытание, другое контролируемое клиническое испытание, когортное исследование, исследование «случай—контроль», 227
поперечное исследование, продольное исследование, сообщение о случае или серия случаев)? • Вторичное исследование (обычный обзор, систематический обзор, мета-анализ, анализ решений, разработки клинических рекомендаций, экономический анализ)? 3. Соответствует ли дизайн исследования области клинических исследований (лечение, диагноз, скрининг, прогноз, причинность)? 4. Было ли исследование этичным? Проверочный лист для раздела «Методы» статьи (см. главу 4) 1. Является ли исследование оригинальным? 2. О ком говорится в исследовании? • Как осуществлялся набор участников исследования? • Каких пациентов включали, а каких — исключали из исследования? • Проводилось ли изучение пациентов в обстоятельствах «реальной жизни»? 3. Хорошо ли исследование спланировано (каким был дизайн исследования)? • Какие вмешательства оценивались в исследовании? • Какие измерялись исходы и каким образом? 4. Было ли исследование контролируемым? • Если это «рандомизированное испытание» была ли рандомизация действительно случайной? • Если это когортное исследование, исследование «случай—контроль» или другое нерандомизированное сравнительное исследование, правильно ли был сформирован контроль? • Были ли группы одинаковыми во всех важных аспектах, за исключением изучаемой переменной? • Была ли оценка исхода (в исследовании «случай—контроль» констатация случая) «слепой»? 5. Было ли исследование достаточно большим, продолжительным, насколько полным было наблюдение для того, чтобы результатам можно было доверять? Проверочный лист для статистических аспектов статьи (см. главу 5) Проверочный лист для материалов, предоставленных представителем фармацевтической компании (см. главу 6) 1. Относятся ли данные материалы к интересующему меня предмету и являются ли они клинически важными в моей практике? 228
2. Опубликованы ли эти материалы в независимых рецензируемых журналах? Пропущены ли в презентации какие-либо важные сведения? 3. Включают ли эти материалы высококачественные исследования (систематические обзоры, мета-анализы или двойные слепые рандомизированные контролируемые клинические испытания) по сравнению данного препарата с его конкурентом, назначенным в оптимальной дозе? 4. Отвечают ли испытания или обзоры на четко поставленный, важный клинический вопрос, отражающий значимую для пациента проблему? Предоставляют ли они сведения по безопасности, переносимости, эффективности и цене? 5. Приведено ли в каждом испытании или мета-анализе состояние, которое нужно лечить, пациентов для включения, вмешательства, которые нужно сравнивать, исходы, которые нужно оценивать? 6. Предоставляют ли данные материалы прямые доказательства того, что этот препарат поможет моим пациентам жить более долгой, более здоровой, более продуктивной, без симптомов жизнью? 7. Если использовались суррогатные исходы, каковы доказательства того, что они надежны, воспроизводимы, чувствительны, специфичны, являются истинными предикторами болезни и быстро отражают эффективность лечения? 8. Указывают ли результаты (и как) на то, что эффективность лечения отличается, отмечались ли различия в типах и частоте побочных реакций? Выражены ли результаты в терминах числа больных, которых необходимо лечить и являются ли они клинически и статистически значимыми? 9. Если представитель фармацевтической компании предоставил много материалов, какие 3 статьи предоставляют лучшие доказательства утверждениям представителя компании? Проверочный лист для статьи, оценивающей диагностический или скрининговый тест (см. главу 7) 1. Является ли этот диагностический тест подходящим для моей практики? 2. Сравнивался ли тест с истинным «золотым стандартом»? 3. Включала ли данная оценка диагностического теста соответствующий спектр участников? 4. Избегался ли work-up bias? 229
5. Избегался ли observer bias? 6. Показана ли воспроизводимость диагностического теста как у одного наблюдателя, так и между наблюдателями? 7. Каковы признаки теста на основании данной статьи? 8. Представлены ли доверительные интервалы для чувствительности, специфичности и других признаков теста? 9. Получены ли на основании этих результатов значения «нормы»? 10. Поставлен ли данный тест в контекст других потенциальных тестов в диагностической последовательности для данного состояния? Проверочный лист для систематического обзора и мета-анализа (см. главу 8) 1. Отвечает ли систематический обзор на важный клинический вопрос? 2. Проводился ли всесторонний поиск в соответствующих базах данных и изучались ли другие важные источники информации? 3. Проводилась ли оценка методологического качества и рассматривались ли отдельные исследования в соответствии с этой оценкой? 4. Насколько чувствительны результаты к смещению в зависимости от способа проведения систематического обзора? 5. Были ли количественные результаты интерпретированы здраво и в свете более широких аспектов данной проблемы? Проверочный лист для набора клинических рекомендаций (см. главу 9) 1. Сопровождалась ли подготовка и публикация рекомендаций конфликтом интересов? 2. Касаются ли рекомендации подходящей темы и указывают ли они четко цель идеального лечения в терминах медицинских и/или экономических исходов? 3. Возглавлял ли группу по разработке рекомендаций ведущий эксперт в этой области (в идеале этого быть не должно) и привлекались ли специалисты по методам вторичных исследований (например, специалист по мета-анализу, экономист в области здравоохранения)? 4. Изучались ли тщательно все сведения и соответствуют ли выводы рекомендаций этим сведениям? 5. Учитывают ли рекомендации различия в оказании медицинской помощи и другие противоречия (например, оптимальная медицинская помощь при истинном или относительном недофинансировании)? 6. Являются ли рекомендации достоверными и надежными? 230
7. Являются ли рекомендации клинически применимыми, всесторонними и достаточно гибкими? 8. Учитывают ли рекомендации, что приемлемо, позволительно и практически возможно для больных? 9. Предусмотрена ли процедура распространения, внедрения и регулярного обновления клинических рекомендаций? Проверочный лист для экономического анализа (см. главу 10) 1. Основывается ли анализ на исследовании, отвечающем на четко определенный клинический вопрос об экономически важной проблеме? 2. С чьей точки зрения рассматриваются затраты и выгоды? 3. Доказана ли клиническая эффективность сравниваемых вмешательств? 4. Являются ли вмешательства приемлемыми в условиях, в которых их скорее всего будут использовать? 5. Какой метод анализа использовался, правильно ли он был выбран? • Если вмешательства приводят к одинаковым исходам — анализ минимизации затрат. • Если важный исход имеет одно измерение — анализ эффективности затрат. • Если важный исход имеет множество измерений — анализ полезности затрат. • Если соотношение пользы и затрат для одного состояния необходимо сравнивать с соотношением пользы и затрат для другого состояния — анализ выгодности затрат. • Если анализ выгодности затрат во всем остальном был бы правилен, но показатели предпочтений, данные по различным состояниям здоровья, оспариваются или, вероятно, изменятся — анализ последствий затрат. 6. Как измерялись затраты и польза? 7. Рассматривалась ли относительная, а не абсолютная польза? 8. Была ли ценность «здесь и сейчас» поставлена выше по сравнению с отдаленным будущим? 9. Проводился ли анализ чувствительности? 10. Использовались ли «глубинные» агрегатные показатели неоправданно широко? 231
Проверочный лист для статьи, посвященной качественному исследованию (см. главу 11) 1. Освещает ли статья важную клиническую проблему путем правильной постановки вопроса? 2. Правильным ли был выбор качественного подхода? 3. Как были выбраны (а) условия и (б) участники исследования? 4. Каковы взгляды самого исследователя и было ли это учтено? 5. Какие методы исследователь использовал для сбора данных и насколько детально они описаны? 6. Какие методы исследователь использовал для анализа данных, какие использованы меры по контролю качества? 7. Заслуживают ли результаты доверия, и если да, то какова их клиническая значимость? 8. Каковы выводы и основаны ли они на результатах? 9. Можно ли перенести результаты исследования в другие клинические условия? Проверочный лист для организаций, стремящихся к научно обоснованному подходу к принятию клинических решений и решений относительно закупок (см. главу 12) 1. Лидерство. Как часто информация об эффективности или медицина, основанная на доказательствах, обсу>вдались на board встречах в течение последних 12 мес? Уделяло ли правление время изучению клинической и затратной эффективности? 2. Инвестирование. Какие ресурсы организация инвестирует в поиск и применение информации о клинической эффективности? Имеется ли у организации план продвижения научно обоснованной клинической практики (доказательной медицины), поддержанный соответствующими ресурсами? 3. Использование доступных ресурсов. Какие действия были предприняты организацией в ответ на официальные директивы, требующие организационной поддержки для научно обоснованной практики? Что в результате изменилось в организации? 4. Внедрение. Кто ответственный за получение, информирование и контроль внедрения бюллетеней «Эффективная медицинская помощь»? Какие действия были предприняты в ответ на каждый из этих бюллетеней? 232
5. Клинические рекомендации. Кто ответственный за получение, информирование и контроль внедрения клинических рекомендаций? Обеспечено ли то, что и менеджеры, и врачи играют роль в разработке и внедрении рекомендаций? 6. Обучение. Было ли предоставлено сотрудникам организации (врачам и менеджерам) какое-либо обучение по критической оценке и использованию доказательств эффективности для влияния на клиническую практику? 7. Контракты. Насколько часто информация о клинической и затратной эффективности составляет важную часть переговоров и соглашений? Сколько контрактов содержат условия, оговаривающие, как может быть использована информация по эффективности? 8. Мотивация (incentives). Какая мотивация, как индивидуальная, так и в отношении всей организации, существует для поддержания научно обоснованной практики? Какие меры (disincentives) предусмотрены по discourage ненадлежащей практики и неоправданных вариаций в принятии клинических решений? 9. Информационные системы. Используется ли полностью потенциал существующих информационных систем для мониторинга клинической эффективности? Позволяют ли новые информационные системы решать эту задачу и рассматривается ли этот вопрос при принятии решений о покупке продуктов информационных технологий? 10. Клинический аудит. Имеется ли в учреждении эффективная программа клинического аудита, способная решать вопросы клинической эффективности и способствовать изменениям в практике? 233
Приложение 2 Поисковые фильтры по методологическому качеству статей 1. Лечебные вмешательства (Какие вмешательства эффективны?) 1 exp clinical trials 2 exp research design 3 randomised controlled trial.pt 4 clinical trial.pt 5 (single or double or treble or triple).tw 6 (mask$ or blind$).tw 7 5 and 6 8 placebos/ or placebo.tw 9 1 or 2 or 3 or 4 or 7 or 8 2. Этиология (Что является причиной? Каковы факторы риска?) 1 exp causality 2 exp cohort studies 3 exp risk 4 1 or 2 or 3 3. Диагностические процедуры 1 exp «sensitivity and specificity» 2 exp diagnostic errors 3 exp mass screening 4 1 or 2 or 3 4. Эпидемиология 1. sn.xs [эта команда позволяет найти все статьи, индексированные под любым термином MeSH с любым из следующей подрубрик: «statistics» («статистика»), «epidemiology» («эпидемиология»), «ethnology» («этнология») или «mortality» ( «смертность»)] 34
Приложение 3 Максимально чувствительные стратегии поиска 1 Максимально чувствительные стратегии поиска для рандомизированных контролируемых испытаний 1 RANDOMISED CONTROLLED TRIAL.pt 2 CONTROLLED CLINICAL TRIAL.pt 3 RANDOMISED CONTROLLED TRIALS.SH 4 RANDOM ALLOCATIONS 5 DOUBLE-BLIND METHOD.sh 6 SINGLE-BLIND METHOD.sh 7 or/1-6 8 ANIMAL.sh not HUMAN.sh 9 7 not 8 10 CLINICAL TRIAL.pt 11 exp CLINICAL TRIALS 12(clin$ adj25 trial$).ti,ab 13((single or double or treble or triple) adj25 (blind$ or mas$)).ti,ab HPLACEBOS.sh 15placebo$.ti,ab 16random$.ti,ab 17RESEARCH DESIGN.sh 18or/l0-17 1918 not 8 2019 not 9 21 COMPARATIVE STUDY.sh 22 exp EVALUATION STUIES/ 23 FOLLOW UP STUDIES.sh 24 PROSPECTIVE STUDIES.sh 25 (control$ or prospectiv$ or volunteer$).ti,ab 26 or/21-25 235
27 26 not 8 28 27 not (9 or 20) 29 9 or 20 or 28 В этих примерах текст заглавными буквами означает словарные термины. Поисковые запросы 8,9,19 и 27 могут быть опущены, если поиск занимает слишком много времени. 2 Максимально чувствительные стратегии поиска для нахождения систематических обзоров 1 REVIEW, ACADEMIC.pt 2 REVIEW, TUTORIAL.pt 3 META-ANALYSIS.pt 4 META_ANALYSIS.sh 5 systematic$ adj25 review$ 6 systematic$ adj25 overview$ 7 meta-analy$ or metaanaly$ or (meta analy$) 8 or/1 - 7 9 ANIMAL.sh not HUMAN.sh 10 8 not 9 Поисковые запросы 9 и 10 могут быть опущены, если поиск занимает слишком много времени. 236
Приложение 4 Оценка эффектов вмешательства Контрольная группа Группа вмешательства да а с Исход нет b d Всего a + b c+d Риск события в контрольной группе (РСК) = риск исхода в контрольной группе = а/(а+Ь) Риск события в группе вмешательства (РСВ) = риск исхода в группе вмешательства = c/(c+d) Относительный риск = РСК/РСВ Снижение абсолютного риска (САР) = РСК — РСВ Снижение относительного риска (СОР) = (РСК — РСВ)/РСК Число больных, которых необходимо лечить (ЧБЛ) = l/САР = 1/(РСК — РСВ) Отношение шансов для определенного исхода = шансы исхода против шансов отсутствия исхода в контрольной группе шансы исхода против шансов отсутствия исхода в группе вмешательства = (a/b)/(c/d) = ad/bc Исход может быть желательным (например, излечение) или нежелательным (например, побочное действие лекарственного препарата). В последнем случае предпочтительно говорить об относительном или абсолютном повышении риска. 237
Содержание Предисловие 5 Предисловие к русскому изданию 7 Введение к первому изданию 10 Глава 1. Зачем читать медицинские статьи? 13 1.1. «Доказательная медицина» — только чтение медицинских статей? 13 1.2. Почему многие люди тяжело вздыхают, когда вы говорите о доказательной медицине? 15 1.3. Перед тем как начать, сформулируйте проблему 20 Литература 24 Глава 2. Поиск литературы 27 2.1. Чтение медицинских статей 27 2.2. База данных Medline г 28 2.3. Задача 1: Вы пытаетесь найти определенную статью, которая, как вы знаете, существует :.... 29 2.4. Задача 2: Вам необходимо ответить на специфический клинический вопрос 35 2.5. Задача 3: Вы хотите быстро получить общую информацию на определенную тему 38 2.6. Задача 4: В результате поиска вы получаете много ненужных (неподходящих) статей 41 2.7. Задача 5: В результате поиска вы не получаете никаких статей или получаете, но не так много, как ожидали 43 2.8. Задача 6: Вы не знаете, где начать поиск 45 2.9. Задача 7: Попытки ограничить число записей приводят к потере важных статей и не позволяют исключить статьи низкого методологического качества 46 2.10. Задача 8: Несмотря на тщательный поиск, в базе данных Medline ничего не найдено 47 2.11. Кокрановская библиотека 50 Литература 51 Глава 3. С чего начать (о чем эта книга)? 53 3.1. Ученый и мусорная корзина 53 3.2. Три первых вопроса 55 3.3. Рандомизированные контролируемые испытания 59 3.4. Когортные исследования 64 3.5. Исследования «случай—контроль» 65 3.6. Поперечные исследования 66 3.7. Описания случаев 67 3.8. Традиционная «иерархия доказательств» 68 3.9. Этические замечания 69 Литература 70 Глава 4. Оценка методологического качества 75 4.1. Является ли исследование оригинальным? 75 4.2. О ком говорится в исследовании? 76 238
4.3. Хорошо ли исследование спланировано? 78 4.4. Удалось ли в исследовании избежать систематических ошибок или минимизировать их? 80 4.5. Была ли оценка «слепой»? 84 4.6. Задавались ли предварительные статистические вопросы? 85 4.7. Выводы 89 Литература 90 Глава 5. Статистика для неспециалиста 92 ,5.1. Как нестатистики могут оценивать статистические тесты? 92 5.2. Корректно ли авторы выбрали схему исследования? 94 5.3. Парные данные, стороны («хвосты») и аномальные выбросы 100 5.4. Корреляция, регрессия и причинность 102 5.5. Вероятность и доверие 104 5.6. Подводя итоги (количественное определение риска пользы и вреда).... 108 5.7. Резюме 110 Литература 110 Глава 6. Испытания лекарственных средств 113 6.1. Доказательная медицина и маркетинг '. 113 6.2. Решение о выборе лечения 115 6.3. Суррогатные конечные точки 116 6.4. Как получить достоверную информацию от представителя фармацевтической фирмы 121 Литература 122 Глава 7. Диагностические и скрининговые исследования 125 7.1. Пример с десятью подсудимыми 125 7.2. Сравнение диагностического исследования с «золотым стандартом» 126 7.3. Десять вопросов, которые нужно задать о работе, оценивающей диагностический или скрининговый тест 131 7.4. Отношение правдоподобия 136 Литература 139 Глава 8. Исследования, обобщающие другие исследования (систематические обзоры и мета-анализы) 141 8.1. Когда обзор считается систематическим? 141 8.2. Оценка систематических обзоров 144 8.3. Мета-анализы для людей, не занимающихся статистикой 150 8.4. Объяснение гетерогенности 154 Литература 157 Глава 9. Статьи, которые говорят вам, что надо делать (клинические рекомендации) 161 9.1. Большие споры о клинических рекомендациях 161 9.2. Изменяют ли клинические рекомендации поведение врача? 164 9.3. Вопросы, которые необходимо задать о коллекции рекомендаций 166 Литература 171 Глава 10. Статьи о том, что сколько стоит (экономические анализы) 174 10.1. Что такое экономический анализ? 174 10.2. Измерение затрат и пользы медицинских вмешательств 176 239
10.3. Десять вопросов, которые необходимо задать для оценки экономического анализа 182 10.4. Заключение 187 Литература , 187 Глава 11. В отсутствие чисел (качественные исследования) 191 11.1. Что такое качественные исследования? 191 11.2. Оценка статей, посвященных качественным исследованиям 194 11.3. Заключение 201 Литература 201 Глава 12. Внедрение доказательной медицины 203 12.1. Сравнение сурфактантов со стероидными препаратами: социологическое исследование внедрения доказательной медицины 203 12.2. Изменение поведения медицинских работников 205 12.3. Управление изменениями для достижения эффективной клинической практики: данные исследований по организационным изменениям 212 12.4. Научно обоснованная организация: вопросы культуры 216 12.5. Теории изменений ■. 217 12.6. Приоритеты для дальнейших исследований процесса внедрения доказательной медицины 220 Литература 221 Приложение 1. Проверочный лист. Поиск, критическая оценка и внедрение доказательств 226 Приложение 2. Поисковые фильтры по методологическому качеству статей 234 Приложение 3. Максимально чувствительные стратегии поиска 235 Приложение 4. Оценка эффектов вмешательства 237 Подписано в печать 21.09.06 Формат 60x90 У16. Бумага офсетная. Печать офсетная. Объем 15 п.л. Тираж 2000 экз. Заказ № 4542 Издательская группа «ГЭОТАР-Медиа». 119828, Москва, ул. Малая Пироговская, 1а, тел./факс: (495) 101-39-07, e-mail: info@geotar.ru, http://www.geotar.ru Отпечатано в ППП «Типография "Наука"». 121099, г. Москва, Шубинский пер., 6. ISBN 5-9704-0274-5