¿Qué son y de dónde vienen los niveles de evidencia?
Los niveles de evidencia fueron descritos originalmente en un estudio del Canadian Task Force on the Periodic Health Examination (algo así como un grupo de trabajo cuya tarea era una evaluación periódica en salud) en 1979. La idea de este informe era desarrollar recomendaciones para generar este examen en salud, y que éstas estuvieran basadas en la información proveniente de los mejores estudios científicos. Así se desarrolló un sistema para evaluar la evidencia para determinar la efectividad de una intervención en particular
Originalmente los niveles propuestos eran
I: Al menos un ensayo clínico controlado con aleatorización adecuada
II-1: Un estudio de cohorte o caso control bien diseñado
II-2: Series de casos en el tiempo con resultados “dramáticos” en estudios no controlados
III: Opiniones de expertos.
Estos niveles fueron descritos y ampliados por David Sackett en un artículo sobre los niveles de evidencia relacionados con agentes antitrombóticos en 1989. Los niveles propuestos por Sackett en esa publicación eran los siguientes:
I: Ensayos clínicos aleatorizados controlados de gran escala
II: Ensayos clínicos aleatorizados controlados pequeños
III: Estudios de cohorte y de caso-control
IV: Estudios históricos de cohortes y caso control
V: Series de casos, estudios sin control.
Partamos por el ensayo clínico aleatorizado con control
En estos se toma una muestra de una población, se evalúa la variable a estudiar o el outcome, y se distribuyen al azar en distintos grupos. En un grupo se hace la intervención de interés, y en otro grupo se aplica el control o comparación. Al final del estudio se compara el outcome entre los grupos.
Un estudio de cohortes compara a grupos que han sido formados de manera “natural”; Una cohorte es un grupo de sujetos que tiene una exposición en común.
Otro tipo de estudio es el que se llama de caso y control, en el que los grupos están separados por el outcome. El grupo de sujetos que tiene el outcome es el grupo “caso” y el que no lo presenta es el “control”. Cuando en una población aparece una enfermedad inusual, el buscar la exposición a factores ambientales puede ser la única forma de determinar la causa de la enfermedad. Sin embargo, el control que se tiene sobre los sesgos es muy limitado.
Después están las series de casos, similar al anterior, pero sin el control.
Y finalmente los reportes de caso, en los que se publica una presentación inusual de una enfermedad, o el manejo de una enfermedad poco frecuente,
Y estos constituían los niveles iniciales propuestos por Sackett el ‘89.
Desde entonces, varias instituciones y organizaciones han propuesto diferentes jerarquías para definir los niveles de evidencia.
Algo de lo que se dieron cuenta los investigadores es que diferentes grupos se formulan diferentes tipos de preguntas, y los niveles de evidencia pueden variar de acuerdo al tipo de pregunta. Las preguntas pueden ser divididas a grandes rasgos en las categorías de prevalencia, diagnóstico, tratamiento, pronóstico, y de análisis económicos o de decisión.
Un estudio ha identificado 17 escalas publicadas entre el 2000 y el 2015 para evaluar la evidencia en función de la diseño del estudio, calidad metodológica, cantidad de sujetos, control de sesgos, magnitud del efecto, entre otros dominios. Algunas escalas son más complejas que otras, por ejemplo, la que aparece en las guías clínicas del ministerio de salud toma 4 niveles:
En nivel 1 son Revisiones sistemáticas de ensayos clínicos aleatorizados, otras revisiones sistemáticas, metanálisis, ensayos aleatorizados, informes de evaluación de tecnologías sanitarias.
En el nivel 2 están los estudios de cohorte, estudios de casos y controles, ensayos sin asignación aleatoria.
En el nivel 3, los estudios descriptivos, series o reportes de casos
En el nivel 4, la opinión de experto.
Los niveles propuestos por el CEBM de oxford en 2009 ponen en el primer lugar a las revisiones sistemáticas para todas las preguntas, dando origen a unos “subniveles”
Hay 5 niveles:
Nivel 1: Reservado para ensayos clínicos aleatorizados con control.
La evidencia 1a es aquella que proviene de revisiones sistemáticas de ensayos clínicos aleatorizados con control que muestren baja heterogeneidad (que los resultados sean similares entre los estudios incluidos en la revisión)
La 1b proviene de ensayos clínicos aleatorizados controlados con un intervalo de confianza estrecho
1c estudios de “todo o nada” (cuando todos los pacientes morían antes de que estuviera disponible el tratamiento estudiado, y después algunos sobrevivían, o algunos pacientes morían antes de que el tratamiento estuviera disponible, y después todos sobreviven)
En el segundo nivel se encuentran los estudios de cohorte.
El 2a será de revisiones sistemáticas de estudios de cohorte con baja heterogeneidad
2b, estudios de cohorte individuales. En este nivel se incluyen ensayos clínicos aleatorizados controlados de baja calidad, por ejemplo, con un seguimiento a menos del 80% de los pacientes)
2c, estudios de “outcomes”
En el tercer nivel hay estudios de caso-control.
Adivinen qué sería el nivel 3a… por supuesto, una revisión sistemática de caso-control con baja heterogeneidad.
En el 3b están los estudios caso-control individuales
En el nivel 4 están las series de casos, o estudios de caso-control de baja calidad metodológica
Y finalmente en el nivel 5 está la opinión de expertos sin evaluación crítica explícita, o basada en la fisiología, estudios exploratorios de base o principios básicos.
Esos son los niveles de que muchos hablan cuando dicen “evidencia 1-A”, aunque hace varios años, el CEBM propuso una nueva clasificación, con “pasos” en lugar de “niveles”, con la idea de que el clínico, al enfrentarse a una búsqueda sobre una pregunta clínica, se fijara en los resultados del primer paso, si no encuentra en ese, pase al segundo, y así sucesivamente.
Para la pregunta sobre la efectividad del tratamiento, los pasos propuestos son
Paso 1: Revisión sistemática de ensayos clínicos aleatorizados controlados
Paso 2: Ensayo clínico aleatorizado controlado con resultados “dramáticos”
Paso 3: Estudio no aleatorizado, o de cohorte
Paso 4: Series de casos, o caso-control
Paso 5: Razonamiento basado en el mecanismo.
O sea, si quiero saber si la intervención X sirve para la condición Z, primero voy a buscar revisiones sistemáticas de ensayos aleatorizados que prueben la intervención X contra un control. Si no hay, busco ensayos clínicos, después de cohorte, y así. Por eso el CEBM ya habla más de “pasos” que de “niveles”
De estos niveles o jerarquía de evidencia surgen los grados de recomendación.
También hay varias escalas que son más o menos consistentes, pero vamos a describir aquí una basada en GRADE (Grading of Recommendation Assessment, Development and Evaluation o Calificación de las evaluación de recomendaciones, desarrollo y evaluación), usada en las guías del ministerio de salud.
Grado A: Altamente recomendada, basada en estudios de buena calidad.
En intervenciones: revisiones sistemáticas de ensayos clínicos aleatorizados, ensayos clínicos aleatorizados, otras revisiones sistemáticas con o sin metanálisis, informes de evaluación de tecnologías sanitarias; en factores de riesgo o pronóstico: estudios de cohorte con análisis multivariado; en pruebas diagnósticas: estudios con gold estándar, adecuada descripción de la prueba y ciego.
Grado B: Recomendada basada en estudios de calidad moderada.
En intervenciones: estudios aleatorizados con limitaciones metodológicas u otras formas de estudio controlado sin asignación aleatoria (ej. estudios cuasi experimentales); en factores de riesgo o pronóstico: estudios de cohorte sin análisis multivariado, estudios de casos y controles; en pruebas diagnósticas: estudios con gold estándar pero con limitaciones metodológicas.
Grado C: Recomendación basada exclusivamente en opinión de expertos o estudios descriptivos, series de casos, reportes de casos, otros estudios no controlados o con alto potencial de sesgo. En pruebas diagnósticas, estudios sin gold estándar.
Grado I: Información insuficiente
Los estudios disponibles no permiten establecer la efectividad o el balance de beneficio/daño de la intervención, no hay estudios en el tema, o tampoco existe consenso suficiente para considerar que la intervención se encuentra avalada por la práctica.
y grado BP: Recomendación basada en la experiencia y práctica del grupo expertos
Otra escala es la del Johanna Briggs Institute, quienes en el 2004 propusieron 4 criterios para hacer la recomendación, que son la viabilidad, pertinencia, significancia y efectividad de una intervención, dando lugar a 5 grados de recomendación (de la A a la E), pero eso se modificó en el 2007, quedando en 3 grados: A, B y C, que corresponden a:
Grado A: fuerte evidencia en favor de la intervención (recomendación fuerte)
Grado B: Evidencia moderada que sugiere considerar la intervención (recomendación débil)
Grado C: no tiene soporte en la evidencia
¿Qué significa una recomendación fuerte?
– Está claro que los beneficios son mayores que los riesgos
– Hay prueba de buena calidad en favor del uso
– Hay un beneficio o no hay impacto en el uso de recursos
– Los valores, preferencias y experiencia del paciente son considerados.
¿Cuándo la recomendación es débil?
– Si los efectos deseados parecen ser mayores que los no deseados, aunque no está claro
– Hay pruebas de la efectividad, pero no de la mejor calidad
– Hay un beneficio, o un mínimo impacto en el uso de recursos
– Pueden no ser considerados los valores, preferencias y experiencia del paciente.
Ellos recomiendan acompañar el grado de recomendación de los dominios indicados antes: viabilidad (relación costo/beneficio, disponibilidad de los recursos, experiencia o competencia del profesional), pertinencia (aceptabilidad cultural, transferible o aplicable a la población, adaptable a una variedad de circunstancias), significancia (asociación con experiencias positivas, no asociación con experiencias negativas), efectividad (efecto benéfico, bajo riesgo).
También en GRADE se habla de recomendaciones fuertes o débiles, a favor o en contra de una intervención.
Y aunque los grados de recomendación se relacionan con los niveles de evidencia, una evidencia de baja calidad no debería dar origen a una recomendación fuerte, la evidencia de alta calidad sí puede dar origen a una recomendación débil (cuando no hay resultados clínicamente relevantes en una revisión sistemática, por ejemplo).
Hay varias escalas para medir niveles de evidencia, que se refieren al control que se puede tener sobre los sesgos y que los grados de recomendación no son lo mismo que el nivel de evidencia.