Мета-анализ (metaanalysis)

Rusa

ALTE DOCUMENTE

Мета-анализ (metaanalysis)

М. представляет собой попытку объединения, используя различные статистические методы, данных 18518s1815s из разных 18518s1815s исслед., посвященных 18518s1815s изучению одного и того же вопроса. Он предусматривает количественную оценку степени согласованности или расхождения результатов, полученных 18518s1815s в разных 18518s1815s исслед. Как отметил Гласе: «Мета-анализ относится к... статистическому анализу большой совокупности результатов анализа данных 18518s1815s из отдельных 18518s1815s исследований в целях объединения этих данных 18518s1815s . Он ассоциируется со строгой альтернативой бессистемным, описательным научным обзорам, которые служат типичным примером наших попыток осмыслить стремительно увеличивающееся количество научных 18518s1815s публикаций... Современные обзоры научных 18518s1815s исследований должны быть в большей мере техническими и статистическими, чем описательными... Данные многократных 18518s1815s исследований должны рассматриваться как комплексное множество данных 18518s1815s , дающее без статистического анализа ничуть не больше информации, чем результаты обработки нескольких сотен данных 18518s1815s одного единственного исследования».

М. применялся при решении весьма широкого круга задач, лишь частично иллюстрируемых следующими примерами: исслед. валидности вопросов, используемых в опросах общественного мнения; определение воздействия претестовой сенсибилизации на выполнение психол. и образовательных 18518s1815s тестов; анализ влияния школьной десегрегации на успеваемость уч-ся. Диапазон тем в приведенных 18518s1815s примерах указывает на уместность использования М. в самых различных 18518s1815s областях исслед. Хотя интерес к М. в последнее время возрос, господствующим методом сведения воедино и сравнения исследовательских данных 18518s1815s в поведенческих науках по-прежнему остается описательный обзор литературы. Однако, с учетом распространения метааналитических методов и их дальнейшего совершенствования, традиционные научные обзоры литературы можно больше уже не считать единственно подходящим или приемлемым средством для составления сводок, сравнения и объединения данных 18518s1815s .

О пользе мета-анализа

Обзор данных 18518s1815s из любой области исслед. в поведенческих науках мог бы выиграть от применения мета-аналитических методов по двум причинам. Первая имеет отношение к комплексности и разнородности данных 18518s1815s . В отличие от более парадигматических научных 18518s1815s дисциплин, накопление знаний в которых происходит путем постепенных 18518s1815s последовательных 18518s1815s приращений, комплексность челов. поведения per се, помноженная на трудность применения эффективных 18518s1815s и обоснованных 18518s1815s мер контроля в исслед. поведения, способствует получению разнотипных 18518s1815s и расходящихся данных 18518s1815s , да и общий подход к проведению поведенческих исслед. яв-ся дополнительным источником вариабельности данных 18518s1815s . Состояние изучения любой проблемы обычно характеризуется научными работами, в к-рых даются разные определения основных 18518s1815s понятий, используются разные методы исслед. и несходные выборки испытуемых, различающиеся наборы независимых переменных 18518s1815s и различные методы анализа данных 18518s1815s . Неудивительно, что уже давно поднимались вопросы об адекватности и надежности описательных 18518s1815s научных 18518s1815s обзоров. Субъективность и возможную тенденциозность составителей научных 18518s1815s обзоров особенно трудно преодолеть в 3 областях, а именно, при: а) отборе конкретных 18518s1815s научных 18518s1815s публикаций, б) оценивании исслед. с т. зр. их относительной важности и в) интерпретации значения полной совокупности научных 18518s1815s данных 18518s1815s . Кроме того, когда количество анализируемых в обзоре научных 18518s1815s данных 18518s1815s становится внушительным, адекватность описательных 18518s1815s обзоров вызывает еще больше сомнений.

Вторая причина, по которой традиционные научные обзоры могли бы выиграть от применения метааналитических методов, связана со способностью к распознаванию ранее не установленных 18518s1815s паттернов в совокупности данных 18518s1815s . М. имеет результатом более точную оценку степени изменчивости или устойчивости данных 18518s1815s в конкретных 18518s1815s областях исслед. Обнаружение возможных 18518s1815s различий в значимости, направленности и величине связей внутри изучаемой совокупности переменных 18518s1815s может повысить чувствительность к ранее ускользавшим от внимания паттернам. Кроме того, поскольку М. позволяет исследовать различия в характеристиках самих исслед. как источники разброса данных 18518s1815s , сказанное выше не ограничивается обзором данных 18518s1815s per се, но распространяется и на условия, в к-рых данные собираются. Следовательно, обладая большей осведомленностью в отношении степени и характера вариации данных 18518s1815s , при проведении исслед. можно сосредоточить усилия на более точных 18518s1815s и продуманных 18518s1815s концептуализациях и средствах измерения поведенческих феноменов.

Критика мета-анализа

Несмотря на свою жизнеспособность в качестве альтернативы традиционным способам выполнения аналитических обзоров научной литературы, М. стал объектом критики. Эту критику можно проиллюстрировать, отчасти, на примерах озабоченности специалистов тремя разными проблемами: а) проблемой «картотечного ящика», б) проблемой учета качественных 18518s1815s различий между исслед. и в) проблемой использования множественных 18518s1815s данных 18518s1815s из одного исслед. В добавление к краткому изложению существа трех отмеченных 18518s1815s видов критики, будут также указаны направления, в каких метааналитические процедуры были модифицированы в ответ на каждый вид критики.

Во-первых, проблема картотечного ящика (file drawer problem) указывает на тенденцию не публиковать статистически незначимые результаты, сохраняя их в архивах исследователей. Т. о. опубликованные исслед., по-видимому, тяготеют к смещению в сторону положительных 18518s1815s результатов, в результате чего возрастает вероятность ошибки I-рода. В качестве корректирующей меры предлагается включение в анализ данных 18518s1815s неопубликованных 18518s1815s исслед., получаемых из личных 18518s1815s и профессиональных 18518s1815s источников. Однако далеко не все неопубликованные данные доступны (да и пригодны) для анализа. Розенталь предложил в качестве частичного решения этой дилеммы использовать оценку требуемого количества незначимых данных 18518s1815s , к-рое нужно было бы получить для того, чтобы аннулировать отмеченный значимый эффект. Если требуемое количество дополнительных 18518s1815s данных 18518s1815s сравнительно велико, тогда к результатам анализа, основанного на доступных 18518s1815s данных 18518s1815s , можно относиться с доверием. Т. о., М. может, по крайней мере имплицитно, обращаться к проблеме систематической ошибки опубликованных 18518s1815s научных 18518s1815s данных 18518s1815s .

Во-вторых, М. критиковали как метод, нечувствительный к различиям качества анализируемых исслед. Так, результаты анализа может быть сложно интерпретировать, если данные из хорошо спланированных 18518s1815s исслед. объединяются с данными, полученными на основе неудачного экспериментального плана. Метааналитические процедуры можно ориентировать на эту проблему, используя кодирование исслед. соответственно качеству плана, с последующим введением этой кодированной переменной в анализ. В итоге можно заметить, будут ли результаты анализа различаться в зависимости от изменений качества планирования исслед. Т. о., М. можно приспособить и к влиянию различий экспериментальных 18518s1815s планов.

В-третьих, в публикациях часто сообщаются множественные данные (multiple findings). Поскольку эти данные не являются независимыми, озабоченность вызвал вопрос о том, как учитывается зависимость между ними в ходе М. Одни исследователи выполняют анализ раздельно для каждой меры зависимой переменной, выявленной в научных 18518s1815s публикациях, тогда как другие, в таком же М., объединяют данные, касающиеся значимости и воздействия независимой переменной на все меры зависимой переменной. Однако, если такие множественные данные включаются в анализ, его результаты могут выглядеть более надежными, чем это оправдано проведенными исслед., так как не все использованные в нем данные являются независимыми. Хотя и не существует правила, предписывающего в таких случаях выбор единственно правильного метода, то, каким эмпирическим способом решается эта проблема, может оказывать влияние на результаты М. Если множественные данные из одних и тех же исслед. включаются в анализ, число критериев значимости и величины эффектов будет больше числа независимых исслед. Несмотря на то, что такой способ повышает мощность М., он не только усложняет определение ошибки, связанной со статистическими результатами анализа, но, что гораздо серьезнее, может способствовать возникновению концептуальной неопределенности и путаницы. Бесспорно, полезно знать общую значимость и общее влияние заданной независимой переменной на весь спектр зависимых переменных 18518s1815s , однако знание дифференциальной значимости и частного влияния независимой переменной на отдельные группы зависимых переменных 18518s1815s может иметь более важное значение для понимания поведенческих феноменов. Тем не менее, споры по поводу относительных 18518s1815s достоинств противоположных 18518s1815s подходов к проблеме множественных 18518s1815s зависимых переменных 18518s1815s продолжаются до сих пор.

Вычислительные процедуры для объединения данных 18518s1815s научных 18518s1815s исследований

Прежде чем обрисовать в общих чертах вычислительные процедуры М., важно разграничить две области применения этого метода: а) объединение данных 18518s1815s , полученных 18518s1815s в разных 18518s1815s исслед., б) сравнение таких данных 18518s1815s . Каждая из этих областей требует использования различных 18518s1815s метааналитических методов. Что касается рассмотрения процедур, посредством к-рых данные разных 18518s1815s исслед. сравниваются в явном виде, независимо от того, проводится ли это сравнение в расплывчатой или сфокусированной форме, следует обратиться к Розенталю.

В контексте объединения данных 18518s1815s из разных 18518s1815s исслед., посвященных 18518s1815s изучению одного и того же конкретного вопроса, встречаются две основные стратегии: а) определение общего уровня значимости объединенных 18518s1815s данных 18518s1815s и б) определение величины отмеченных 18518s1815s эффектов. Для каждой из этих стратегий было разработано множество конкретных 18518s1815s процедур.

Общая значимость данных 18518s1815s

При объединении результатов, полученных 18518s1815s в независимых работах, оценивающих одинаково направленную конкретную гипотезу, в распоряжении исследователя имеется множество процедур, называемых сложными критериями. В этой статье мы ограничиваемся рассмотрением методов, разработанных 18518s1815s Фишером, Вайнером и Стауффером с соавторами.

Известный под названием метода суммирования логарифмов (adding logs method), сложный критерий Фишера является одной из наиболее популярных 18518s1815s и часто используемых процедур проверки гипотез и задается следующим уравнением:

²= - 2 ln p.

Эта процедура заключается в суммировании со знаком минус удвоенных 18518s1815s натуральных 18518s1815s логарифмов соответствующих значений р односторонних критериев, приведенных 18518s1815s в анализируемых исслед. Получающаяся в результате стат., к-рая и положена в основу данного критерия, имеет ²-распределение с числом степеней свободы (df), равным удвоенному числу исследований (N), включенных 18518s1815s в анализ (т. е. df = 2N). Метод Фишера особенно эффективен, когда число анализируемых исслед. относительно невелико (не более 5). Хотя было доказано, что эта процедура яв-ся в большей степени асимптотически оптимальной, чем др. методы объединения, она обнаруживает довольно серьезный недостаток всякий раз, когда в двух исслед. приводятся одинаково значимые результаты противоположного характера. В этой ситуации метод Фишера дает допускающие двоякое толкование результаты, подтверждая значимость любого из исходов. Поэтому, когда проводится обзор всего нескольких исслед., рекомендуется не использовать эту процедуру механически. Но, вообще говоря, можно усомниться в пользе проведения М. в тех случаях, когда расходящиеся данные получены в таком ограниченном количестве исслед. Если число исслед. в к.-л. области мало, а полученные в них данные явно расходятся, то возникают вопросы не только в отношении уместности применения М. как метода обзора данных 18518s1815s , но и в отношении того, указывают ли анализируемые публикации на сколько-нибудь жизнеспособную область исслед.

Сложный критерий Вайнера, называемый методом «суммирования значений t», имеет вид:

Основанная на выборочном распределении независимых статистик t, эта процедура заключается в вычислении нормированного отклонения (standard normal deviate), равного сумме значений t-критерия, деленной на корень квадратный из дисперсии t-распределения. Эти значения t-критерия или берутся прямо из включаемых в обзор публикаций, или, если в них приведены только значения р, получаются путем преобразования указанных 18518s1815s р в t. Дисперсия t-распределения имеет приближенно нормальное распределение, когда число степеней свободы (df) для каждого значения t больше или равно 10. Следовательно, в тех случаях, когда число степеней свободы для каждого значения t меньше 10, этот метод не будет давать достаточно хорошего приближения. Т. о., хотя метод Вайнера и обладает преимуществом в том смысле, что нечувствителен к числу обозреваемых исслед., его эффективное использование, в конечном счете, зависит от числа степеней свободы, связанного с каждым исслед.

Наконец, метод Стауффера, известный как метод суммирования значений Z (adding Z's method), яв-ся, возможно, наиболее широко используемой процедурой объединения данных 18518s1815s , к-рая иллюстрируется следующим уравнением:

Эта вычислительная процедура относительно проста. После преобразования приведенных 18518s1815s в публикациях значений р в соответствующие нормированные отклонения, или Z-величины, эти значения Z суммируются и делятся на корень квадратный из числа объединяемых исслед. (N). Данная процедура основана на том известном факте, что сумма нормированных 18518s1815s отклонений сама яв-ся нормированным отклонением, с дисперсией, равной числу включаемых в анализ исслед. Единственное известное ограничение этого метода связано с тем, что предположение единичной дисперсии для каждого из объединяемых исследований может при некоторых обстоятельствах повышать ошибки I и II рода.

Когда число объединяемых данных 18518s1815s невелико, при оценивании общей значимости данных 18518s1815s разумно воспользоваться не одной, а несколькими процедурами параллельно. Даже если объединяется большое число опубликованных 18518s1815s данных 18518s1815s , рекомендуется использовать вторую процедуру объединения как средство проверки результатов М. Хотя существенные различия в результатах применения метааналитических процедур встречаются крайне редко, вычисление критериальных 18518s1815s статистик разными методами все же делает выводы анализа более убедительными. В зависимости от конкретных 18518s1815s обстоятельств, исследователь должен рассматривать возможность применения и других процедур, включ. модели сложения вероятностей и проверки среднего р Эджингтона (Edgington's adding probabilities and testing mean p models), модели сложения взвешенных 18518s1815s Z-величин и проверки среднего Z (the adding weighted Zs and testing mean Z models), а также различные вычислительные методы и методы объединения данных 18518s1815s в блоки.

Оценка величины эффекта

Вторая общая метааналитическая стратегия в области объединения данных 18518s1815s , полученных 18518s1815s в разных 18518s1815s исслед., предполагает оценивание силы интересующего эффекта. В отличие от первой стратегии, предполагающей определение общей значимости данных 18518s1815s , оценка величины эффекта сосредоточена более конкретно на силе эффекта гипотетической связи между переменными. Как заметил Коэн: «Не подразумевая каких-либо необходимых выводов о причинности, удобно пользоваться выражением величина эффекта в значении уровня представленности определенного феномена в генеральной совокупности или, иначе говоря, степени ложности нулевой гипотезы (нулевой величины эффекта)».

Оценки величины эффекта можно получать с помощью широкого множества методов. В данном случае мы ограничимся рассмотрением статистических критериев, подходящих для оценки а) корреляционных 18518s1815s связей и б) групповых различий на основе t-критерия Стьюдента. При оценивании эффекта корреляционных 18518s1815s связей цель заключается в объединении данных 18518s1815s разных 18518s1815s исслед., касающихся связи между двумя изучаемыми переменными, измеренными в интервальной шкале или шкале отношений, тогда как оценивание групповых различий относится к оценке степени изменения предусмотренного гипотезой исхода (= результата) при сравнении двух тождественных 18518s1815s групп, чаще всего определяемой относительно таких условий, как «контроль/эксперимент» или «предварительное/итоговое тестирование».

Опубликованные исслед. различаются эксперим. планами и критериальными статистиками, приводимыми в описании результатов. Данные, относящиеся к связи между переменными, могут быть выражены в единицах корреляции произведения моментов Пирсона (r), квантилей ²-распределения или к.-л. др. стат., а данные о групповых различиях могут приводится с использованием t, F или др. стат. Поэтому прежде чем оценивать общую величину эффекта, нужно перейти от разных 18518s1815s итоговых статистик, сообщаемых в анализируемых публикациях, к к.-л. общей мере. К наиболее часто используемым для этой цели мерам относятся корреляция произведения моментов Пирсона (применительно к корреляционным данным) и d-статистика (применительно к групповым различиям, оцениваемым с помощью t-критерия Стьюдента). Хотя далее речь пойдет именно об этих двух стат., М., конечно же, не ограничивается их применением. Что касается процедур преобразования с использованием разнообразных 18518s1815s стат., следует обратиться к Розенталю. После того как сообщаемые в анализируемых публикациях стат. выражены в единых 18518s1815s мерах, можно начинать анализ величины эффекта.

Корреляционные связи. Оценка величины эффекта между двумя изучаемыми переменными требует выполнения простых арифметических действий по следующей формуле:

Иначе говоря, вычисляется простое среднее арифметическое корреляций путем деления суммы приведенных 18518s1815s в публикациях коэффициентов корреляции на число суммируемых коэффициентов (п). В качестве альтернативы использованию значений r можно усреднять значения величины Z Фишера:

После замены значений r соответствующими значениями Z (по формуле или с помощью специальной таблицы преобразований Фишера) сумма значений Z делится на число коэффициентов корреляции, включ. в анализ. Затем преобразуется обратно в соответствующее значение r, к-рое и сообщается в качестве итоговой стат. анализа.

В ходе дальнейшего оценивания величины эффекта может потребоваться учесть различия между исслед., касающиеся а) вариации объема выборок и б) использования различных 18518s1815s способов или методик измерения. Так как две вышеописанные процедуры не предусматривают введение поправок или весов исходя из различий объема выборок, коэффициент корреляции (или Z Фишера) из исслед., проведенного на выборке из 10 чел., будет учитываться в них с тем же весом, что и др. коэффициент, полученный на выборке объемом в 500 человек. Признавая потенциальную важность этого типа вариабельности, Хантер с соавторами и Розенталь рекомендуют при проведении анализа величины эффекта использовать среднее арифметическое значений r, взвешенных 18518s1815s соответственно различиям выборок, на к-рых они были получены. Вообще говоря, желательно сообщать данные о величине эффекта, основанные на средних арифметических и взвешенных 18518s1815s , и невзвешенных 18518s1815s величин.

Относительно измерения переменных 18518s1815s , включаемых в М. величины эффекта, должно быть подтверждено, что на общем концептуальном или теорет. уровне выбранные для анализа переменные относятся к двум феноменам, сохраняющим свою идентичность во всех условиях проведения обозреваемых исслед. (напр., соц. класс и психол. благополучие). Но на уточненном и более конкретном уровне измерений соответствующие переменные могли измеряться с помощью разных 18518s1815s способов или методик. Хотя этот источник потенциальных 18518s1815s различий так или иначе учитывается в анализе общей значимости данных 18518s1815s , его нужно принимать в расчет и при интерпретировании значения оценок величины эффекта. В тех областях исслед., где определенные измерительные шкалы были признаны стандартными и потому регулярно используются, эта проблема может не быть столь острой, как в тех областях, где нет общепринятых и широко используемых шкал. Однако именно в этих последних областях исслед. можно извлечь существенные выгоды из М., разумеется, при условии, что он отражает вдумчивый и внимательный подход к анализируемым данным.

Групповые различия. При оценивании групповых различий, определенных 18518s1815s на основе t-критерия Стьюдента, проводится двухступенчатый анализ. Сначала, по данным каждого включенного в обзор исслед. определяется стандартизованная масштабно-инвариантная оценка предполагаемого эффекта. Так, напр., если проводится обзор 7 опубликованных 18518s1815s исслед., стандартизованная оценка величины эффекта вычисляется для каждого из различных 18518s1815s наборов групп, содержащихся в этих исслед. Эти наборы сопоставляемых групп чаще всего отображают ситуации типа «контроль/эксперимент» или «предварительное/итоговое тестирование». Для вычисления стандартизованной оценки величины эффекта (d) в каждом исслед. используется следующая формула:

В этом выражении абсолютная разность между средними величинами, приводимыми при каждом сопоставлении групп, делится на стандартное (среднее квадратическое) отклонение (SD). Используемое здесь SD - это стандартное отклонение, вычисленное либо по данным контрольной группы или предварительного тестирования, либо по данным объединенной выборки (или «генеральной совокупности»). После определения этих стандартизованных 18518s1815s разностей между групповыми средними (d), каждой величине d придается положительное или отрицательное значение, в зависимости от дифференциального эффекта, зарегистрированного внутри этих двух типов групп. Если, как и предполагалось в гипотезе, величина группового среднего больше в экспериментальной группе или в итоговом тестировании, чем в контрольной группе или в предварительном тестировании, то соответствующая величина d для данного исслед. получает знак плюс. Если же наблюдается обратное, противоречащее исходной гипотезе, соотношение групповых средних, то соответствующая величина d получает знак минус. Когда все знаки определены, можно вычислить общую итоговую меру величины эффекта для объединяемых из разных 18518s1815s исслед. данных 18518s1815s . Эта вычислительная процедура представлена выражением

согласно к-рому сумма положительных 18518s1815s и отрицательных 18518s1815s значений d для каждого включенного в обзор исслед. делится на число исслед. (п). Эта итоговая статистика (среднее d) и будет отображать величину эффекта между двумя состояниями групп, измеренного в единицах стандартного отклонения.

Заключение

Решающим условием расширения сферы использования метааналитических методов является доступность необходимой информ. о статистических критериях, используемых в обозреваемых исслед. Без сообщения в публикациях точных 18518s1815s значений критериальных 18518s1815s статистик (например, р, t, Z, d или r) и др. необходимой информ., перспективы применения М. будут весьма ограниченными. С увеличением доступности такой информ. будет продолжаться реальное расширение метааналитических исслед. и совершенствование его методологии.

По мере развития самого М. ряд проблем, считавшихся ранее препятствиями на пути использования его методов, привлек внимание исследователей. В результате были выявлены некоторые вызывающие сомнение аспекты М. и предприняты попытки (нужно сказать, успешные) найти решения этих проблем. В частности, М. справился с такими проблемами, как учет посредствующего воздействия др. переменных 18518s1815s и применение в исслед. непараметрических методов. В настоящее время М. представляет собой динамическую, многоаспектную систему методов, позволяющую теоретически и методологически убедительным способом объединять в одно целое данные разных 18518s1815s научных 18518s1815s исслед.

Будущее М., по-видимому, зависит не столько от разрешения технических проблем, сколько от продвижения в понимании концептуальной базы М.

См. также Теория алгоритмически-эвристических процессов, Критерий хи-квадрат, Корреляционные методы, Теория обработки информации, Проверка нулевой гипотезы, Моделирование структурными уравнениями, Анализ временных 18518s1815s рядов

Д. Никинович

Document Info

Accesari: 991
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta

Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul:
in pagina web a site-ului tau.

eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare