Sobre la lectura crítica de un ensayo clínico:
En este tipo de estudio, los sujetos son distribuidos de manera aleatoria en grupos para recibir una intervención clínica. Uno de estos grupos es llamado grupo de control; el control puede ser una práctica estandarizada, un placebo o ninguna intervención. Son el Gold Standard para comprobar la efectividad de tratamientos o drogas.
Los dos elementos principales de este tipo de estudio son la aleatorización y el control.
Lo primero, la aleatorización, evita el sesgo de selección, en el que el investigador puede asignar a su discreción cada sujeto a un grupo determinado.
Lo segundo es el control. La idea detrás de este elemento es disminuir la probabilidad de que cualquier cambio responda a una evolución natural u otros factores fuera del diseño experimental. En ausencia de un grupo de control, no sería correcto afirmar que los efectos observados se puedan atribuir a la intervención.
Este control debe ser, idealmente, un elemento comparable al menos en forma a la intervención.
Lo que se conoce como “placebo”. La palabra placebo proviene del latín, y quiere decir “Complacer”. Originalmente fue definida como la medicación prescrita para complacer al enfermo. Era una sustancia inerte que se les daba a los pacientes molestos o exigentes, o a los que no se puede hacer nada por ellos. En 1950, Berg afirma que “toda intervención terapéutica, incluido el propio placebo, tiene efecto placebo, siendo además esta la única característica común a todos los medicamentos”. La definición actual de placebo es “algún procedimiento o componente terapéutico que es dado intencionadamente buscando tener un efecto, en paciente, síntoma, síndrome o enfermedad, pero objetivamente sin actividad específica para esa condición tratada”
Lo que se hace en el grupo de control debería ser algo similar a lo que es aplicado en el grupo que recibe la intervención. O sea, si voy a estudiar los efectos de una técnica manual, en el grupo control, el “placebo” o control debería considerar en algún momento al menos poner las manos sobre el paciente
Como puede haber mucha variabilidad entre estudios que intenten responder la misma pregunta, y variados diseños de investigación, indudablemente habrá algunos estudios “mejores” que otros.
Sobre la evaluación de la validez o calidad del estudio, una revisión sistemática encontró más de 20 escalas o instrumentos para comprobar la calidad de un RCT, incluyendo 6 específicos para terapia física. Cada escalas usa varios criterios, y si las combinamos, encontraríamos 43 criterios únicos que se pueden agrupar en 5 categorías, como la selección de pacientes (6), el ocultamiento (6), el tratamiento (14), los outcomes (6), la estadística (11), y cada una de las escalas utiliza unos pocos de ellos. Por ejemplo, la escala PEDro contempla 11 criterios. Algunas escalas usan menos criterios (como la de Jadad que usa 4), o más (como Bizzini que toma en cuenta 28)
Veamos los criterios más importantes para comprobar la calidad de un RCT, en cada una de las categorías que mencionamos recién.
La primera categoría es la selección de pacientes.
En esta categoría, deben estar bien descritos los criterios de selección (inclusión/exclusión), y los métodos de asignación aleatoria. Hay varios métodos de asignación aleatoria para construir los grupos en un estudio, que tampoco vale la pena detallar mucho ahora.
Una vez hecha la asignación, los grupos deben ser similares en relación a los factores pronósticos más importantes (edad, sexo, IMC, por ejemplo), y los estudios deben mostrar esta comparación. Esto se encuentra normalmente en la “tabla 1” de la sección resultados. Muchos investigadores incluyen en esta tabla los p-value, demostrando con valores elevados que no hay diferencias significativas entre los grupos.
La segunda categoría es el ocultamiento, que puede ser a varios niveles:
Asignación, o sea, los investigadores no deberían saber de antemano a qué grupo es asignado cada uno de los sujetos. Algunos consideran éste el principal nivel en el que debe haber ocultamiento.
Los otros son a nivel del paciente (que el paciente no sepa si está en el grupo de intervención o de control), del terapeuta (que el tratante no sepa si está aplicando la terapia o el placebo), y a nivel del evaluador (quien mide el resultado de la intervención no sabe si está evaluando a un sujeto del grupo de estudio o de control). Esta última es menos relevante cuando el outcome se mide de manera objetiva.
La tercera categoría es sobre las intervenciones
El estudio debe describir adecuadamente la intervención al grupo de tratamiento y de control, y este último debe ser adecuado, evitando co-intervenciones. También se debe describir el seguimiento de todos los sujetos de la muestra, indicando las razones en caso de haber sacado a pacientes de alguno de los grupos. También el tiempo del seguimiento debe ser adecuado, y la temporalidad de las mediciones en todos los grupos debe ser comparable.
La cuarta categoría son los resultados:
El estudio debe describir las medidas para los outcomes, las que deben ser relevantes, válidas, confiables, y lo más objetivas posibles. Para más detalles pueden escuchar el episodio sobre Outcome Measures o sobre Pruebas Diagnósticas.
La categoría final es sobre la estadística.
Lo primero es que se haya realizado una medición descriptiva del outcome principal (estimadores puntuales e indicadores de dispersión), con un análisis estadístico apropiado, con una muestra de tamaño adecuado y descrita para cada uno de los grupos.
Dentro del análisis estadístico, un indicador importante (considerado en todas las escalas) es el análisis por intención de tratar.
Este consiste en que todos los sujetos son incluidos en el análisis del grupo en el que fueron asignados inicialmente, y da cuenta de dos de los grandes problemas de un RCT: la no adherencia y los outcomes faltantes. Un Análisis por Intención de Tratar incluye a todos los sujetos que fueron aleatorizados en un grupo dentro del análisis final para ese grupo, independientemente de su condición final (abandono, no seguimiento del protocolo, etc). De esta forma se evita una estimación demasiado optimista de la eficacia de un protocolo, aceptando la no adherencia y desviación del protocolo como algo que ocurre en la práctica clínica.
Ahora, sobre los resultados.
¿Basta con fijarse si son estadísticamente significativos? O sea, ¿nos confiamos del valor de p? ¿Cómo sabemos si son clínicamente relevantes?
Primero, sobre el valor de p o p-value. Éste es el resultado de una prueba de hipótesis o cálculo estadístico, y se define como la probabilidad de encontrar un efecto al menos tan extremo como en los datos de la investigación si la hipótesis nula fuera correcta. No es la probabilidad del azar, ni de error en el estudio.
En una publicación especial de The American Statistician con 43 artículos escritos por estadísticos importantes, se promueve el terminar la práctica de usar un p-value de menos de 0,05 como evidencia fuerte contra una hipótesis nula, o un p-value mayor a 0,05 una evidencia fuerte en favor de la hipótesis nula. Los editores incluso recomiendan dejar el uso de las palabras “estadísticamente significativo”.
En esto, la matemática es complicada, pero se calcula que la probabilidad de rechazar incorrectamente la hipótesis nula (error tipo I) cuando el valor de p es 0,05 es de al menos 23%, típicamente cercano al 50%
Hay que comprender un bajo valor de p como resultado de la diferencia entre grupos y el tamaño muestral. Pequeñas diferencias entre grupos pueden ser estadísticamente significativas en muestras suficientemente grandes.
Por eso lo conveniente es buscar indicadores de la magnitud del efecto (effect size), que pueden ser más fáciles de interpretar, como la diferencia de medias estandarizada o no estandarizada, riesgo relativo, reducción relativa del riesgo o reducción absoluta del riesgo (hay más de 70 indicadores de magnitud de efecto reportados). Luego de eso, definiremos si los resultados son clínicamente relevantes.
Y otro valor importante es el intervalo de confianza, que es algo así como el rango en el que esperaríamos encontrar los resultados de la intervención en la mayoría de las personas. Mientras más amplio es ese intervalo, es menos confiable la intervención – hay mucha dispersión entre los resultados. Por ejemplo, una intervención puede disminuir en promedio 3 puntos EVA el dolor de hombro, pero es diferente si el intervalo de confianza indica un rango de 2 a 4 que si indica de 0 a 6.
¿Y qué pasa con la antigüedad del paper? ¿es el estudio publicado hace un mes, más válido que el publicado hace una década?
Ninguna de las escalas toma en cuenta la antigüedad de la publicación, pero sí hay que tener en cuenta que desde el 2000 hay una iniciativa de registrar todos los estudios clínicos de manera detallada y hay dos consecuencias super importantes de esto:
- Desde que se registran los estudios, han bajado la cantidad de resultados positivosreportados (antes se jugaba un poco con los “grados de libertad del investigador” que podía manipular los criterios de selección, outcomes y pruebas estadísticas, para tener resultados estadísticamente significativos
- La mitad de los estudios registrados no reportan sus resultados.
En resumen, las recomendaciones en la práctica basada en evidencia para la lectura de resultadosen un ensayo clínico son:
- No basar las conclusiones sobre una asociación en un efecto “estadísticamente significativo”
- No creer que existe asociación sólo porque es estadísticamente significativa
- No creer que la asociación no existe sólo porque no es estadísticamente significativa
- No creer que el valor de p da la probabilidad de que el azar produce la asociación o efecto observado, o que la hipótesis es cierta
- No concluir nada sobre la relevancia clínica basándose solo en la significancia estadística o ausencia de ésta.
El episodio está disponible en iTunes, Spotify y en la plataforma Audioboom.