Usar 4+ para calificar la fuerza muscular casi normal no mejora la concordancia
Este estudio tuvo como objetivo examinar si la extensión de la escala MRC estándar a una escala MRC modificada mejora la concordancia y reduce la variación de las calificaciones.
En general, los datos no demuestran un mayor porcentaje de concordancia en el grupo MRC modificado en comparación con el grupo MRC estándar y la inspección visual de las Figs. 1 y 2 sugieren que, en todo caso, existe una mayor variación entre los grados y entre los casos en el grupo MRC modificado.
También se encontró que el análogo de desviación promedio era mayor en nueve de diez comparaciones (los cinco casos, limitado y no limitado) en el grupo MRC modificado en comparación con el grupo MRC estándar, así como para todos los casos combinados, lo que indica que las calificaciones se distribuyeron de manera más uniforme y menos enfocada en el grupo MRC modificado.
Valores Kappa para tanto las escalas estándar como las modificadas de MRC fueron muy bajas (0.05 o 0.14). Aunque, para ambas escalas, la hipótesis de que ningún acuerdo excediera el acuerdo de pura casualidad (kappa = 0) fue rechazada con p < 0.0001, parecía haber una gran cantidad de variabilidad en el calificaciones y la fuerza del acuerdo es pobre para ambos grupos de evaluadores.
Se debe tener precaución al sacar conclusiones del porcentaje de acuerdo observado, la desviación promedio análoga y kappa debido al hecho de que el número de categorías aumenta por uno al cambiar de la escala MRC estándar a la escala MRC modificada. Por ejemplo, con un aumento de 2 a 3 categorías en una escala dada, la concordancia porcentual mínima posible que se puede observar cae del 50% al 33,3%. El índice ada que va de 0 a 1 resuelve este problema en el sentido de que sus valores máximo y mínimo no dependen del número de categorías. Sin embargo, los índices ada intermedios generalmente disminuyen cuando se aumenta el número de categorías en las que se clasifican los casos, sin preservar necesariamente el orden de los casos cuando se ordenan de acuerdo con sus índices ada (consulte «Índices de variación cualitativa …» de Wilcox para obtener una descripción ejemplo).
En otras palabras, con más categorías disponibles para elegir, es probable que la concordancia disminuya (y la dispersión aumente), al menos si se usa todo el intervalo de la escala. Sin embargo, señaló que el cuestionario actual fue diseñado intencionalmente para enfocarse en una parte muy limitada de la escala: con 2 respuestas correctas (calificaciones 4 y 5) en la escala estándar MRC y solo una (4+) en la escala MRC modificada. Por lo tanto, si de hecho se hubiera encontrado una mayor concordancia y una menor dispersión en el grupo MRC modificado según la hipótesis, esto podría haber sido, en cierta medida, el resultado de más (2 vs 1) opciones de respuesta correcta en la escala MRC estándar . Pero como se describe, el hallazgo actual Los resultados sugieren un menor acuerdo y una mayor dispersión en el grupo MRC modificado, a pesar de los efectos de las diferencias en el número de categorías. En la siguiente sección, discutimos si los cinco casos se construyeron con éxito de tal manera que se enfocaran en respuestas de 4 o 5 en la escala estándar MRC y 4+ en la escala modificada.
Finalmente, kappa es una medida de concordancia que generalmente se usa en estudios con un número relativamente grande de casos y un número relativamente pequeño de evaluadores. Puede aplicarse a situaciones con un número reducido de casos evaluados por un mayor número de evaluadores, pero normalmente dará como resultado valores kappa relativamente bajos. Independientemente de ello, la expectativa sería ver una disminución en kappa al aumentar el número de categorías, es decir, pasar del MRC estándar al MRC modificado (ver, por ejemplo, Altmann «Estadísticas prácticas para la investigación médica»).
En resumen, la concordancia es pobre para ambas escalas El hecho de que observamos un aumento de kappa, cuando se utiliza la escala MRC modificada en lugar de la estándar, podría en principio tomarse como una indicación de una concordancia ligeramente mayor de la escala MRC modificada. Sin embargo, esto no se puede probar de manera rigurosa, ya que los errores estándar para el cambio observado en los valores de kappa no están disponibles en el contexto dado. Por el contrario, un aumento en ada para la escala MRC modificada indica una mayor variación cualitativa en las calificaciones, en comparación con el estándar MRC y, por lo tanto, menos consenso entre esos evaluadores. Observar que el porcentaje de concordancia disminuye en la mayoría de los casos, así como en todos los casos combinados, no proporciona más indicios de mejor acuerdo y Por tanto, las conclusiones siguen siendo ambivalentes. En conjunto, los datos no sugieren una mejora clara en la concordancia utilizando la escala MRC modificada.
Descripciones de casos
Con casos específicamente diseñados para describir la debilidad muscular de manera ambigua en el área gris entre 4 y 5 en la escala MRC estándar, era de esperar que los evaluadores del grupo MRC estándar no estuvieran seguros de cuál de esas dos opciones elegir.Por el contrario, los evaluadores del grupo MRC modificado podrían resolver tal incertidumbre eligiendo el valor «medio» de «4+». Se esperaba que esto, a su vez, produjera un mayor acuerdo y una menor variabilidad en las calificaciones en el grupo MRC modificado en comparación con el grupo MRC estándar. Como se concluyó, no se encontró que este fuera el caso.
Una debilidad descrita de manera ambigua en algún lugar entre 4 y 5 no debería resultar en una distribución igual de 4 y 5 grados en el grupo MRC estándar y es razonable esperar que los médicos pongan mayor énfasis en los hallazgos anormales en la descripción del caso que en los hallazgos normales. De hecho, el grado 4 fue aproximadamente 3 tres veces más común que el 5 en el grupo MRC estándar.
Aparte del caso C, las respuestas de 3 o menos en el grupo MRC estándar generalmente pueden atribuirse a participantes que no están familiarizados con la escala MRC y / o participantes que han invertido la escala, puntuando la mayoría de los casos como 0, 1 o 2. La mayor frecuencia de respuestas de 3 y menos en el grupo MRC estándar, se explica por el redacción de la pregunta # 1. Los participantes que no estén familiarizados con la escala MRC responderían naturalmente «No» a la pregunta # 1, colocándolos así en el grupo MRC estándar. Los evaluadores que no estén familiarizados con la escala MRC se encontrarían predominantemente en el grupo MRC estándar. Para contrarrestar esto, hemos presentado resultados basados en todos los datos disponibles (ilimitados), así como datos limitados a respuestas apropiadas en el extremo superior de la escala.
La distribución de respuestas en el caso A fue esencialmente similar entre los grupos, con 4+ simplemente reemplazando a 4 en el grupo MRC modificado. Sin embargo, en el caso B, un número proporcionalmente mayor de evaluadores en el grupo MRC modificado eligió «4», a pesar de tener la opción «4+» disponible para ellos. Como se describe en la sección anterior, algunos evaluadores eligieron «3» en el caso C, no porque no estuvieran familiarizados con la escala, sino porque sentían debilidad frente a la gravedad y una debilidad que aumentaba gradualmente justificaba una calificación de «3». En cualquier caso, la gran mayoría de los evaluadores en el grupo MRC estándar eligió 4 en el caso C, mientras que el grupo MRC modificado se distribuyó de manera más uniforme entre 4, 4+ y 5, con solo 3 evaluadores eligiendo 3. El caso D fue distinto de los otros casos en que la respuesta se dio en la descripción del caso: «Encuentra una debilidad de grado 4», y además el carácter de la debilidad se dio como «principalmente relacionada con el dolor». Curiosamente, el 44% del grupo MRC estándar y el 31% del grupo MRC modificado, aún calificaron el caso como «5». En otras palabras, un número considerable de evaluadores eligieron traducir una debilidad de grado «4» en grado «5» cuando se les informó que la naturaleza de la debilidad estaba relacionada con el dolor (en contraposición a neuromuscular). Por tanto, el grupo estándar de MRC se dividió casi uniformemente entre los grados «5» y «4». El grupo MRC modificado, por otro lado, eligió la respuesta esperada de «4+» en solo el 9% de las respuestas (la más baja en cualquiera de los casos) y respondió «4» en el 60% de las respuestas. Se podría argumentar que una alta tasa de respuestas de grado «4» no es sorprendente, ya que la descripción del caso sugirió específicamente que se observó un grado 4. Sin embargo, ambos grupos tenían pocas reservas al elegir 5 a pesar de la descripción del caso y, además, la opción 4+ disponible para el grupo MRC modificado también estaría en línea con la descripción del caso y podría servir como una forma de calificar una calificación. La debilidad 4 como relacionada con el dolor, sin embargo, fue la respuesta menos común en el grupo MRC modificado (excepto las 2 respuestas de 0). La disponibilidad de una opción «4+» aparentemente no tentó al grupo MRC modificado a elegir ese grado como un medio para calificar la debilidad como relacionada con el dolor. Aunque el caso E tenía la descripción de debilidad menos convincente, el 15% del grupo de MRC modificado eligió 4; nuevamente, la disponibilidad de una opción 4+ no los influyó ni mejoró el acuerdo.
En general, por lo tanto, podríamos argumentar que los cinco casos fueron redactados de manera ambivalente de tal manera que favoreciera una respuesta intermedia en el área gris entre 4 y 5. Aceptando esta premisa, los resultados deberían haber sido posiblemente un mayor acuerdo en el grupo MRC modificado, en comparación con el grupo MRC estándar. En cambio, la opción 4+ aparentemente solo agregó una opción de respuesta adicional para ser ambivalente, lo que resultó en una mayor, en lugar de menos, disparidad en el grupo MRC modificado.
El estudio actual solo examinó el efecto de agregar 4+ a la escala MRC, ya que ese extremo de la escala parece ser el más difícil de calificar. Basándonos en los datos actuales, no podemos decir si las escalas más modificadas sugeridas por el Medical Research Council, Barr et al. , Paternostro-Sluka et al. o Bohannon daría como resultado un mayor acuerdo, pero parece improbable ya que un número aún mayor de grados sin definiciones claras, muy probablemente sólo resultará en una dispersión aún mayor.Por supuesto, es muy posible que el acuerdo mejore en lugar de deteriorarse con la adición de grados intermedios como 4+, si dichos grados estuvieran claramente definidos con límites objetivos; sin embargo, ese no es el caso.
Los hallazgos actuales no se basan en exámenes físicos reales de la debilidad muscular y no tenían la intención de examinar la validez de la prueba muscular manual como tal. En cambio, la descripción escrita de los hallazgos clínicos que se presentó a los participantes significa que se eliminó la variabilidad debida a las diferentes técnicas de examen y el sesgo relacionado con el cumplimiento del paciente, etc. Hasta donde sabemos, no se han presentado previamente estudios de cuestionario comparables. A todos los evaluadores se les presentaron los mismos hallazgos clínicos (aunque en su lengua materna). La variabilidad en los datos actuales reflejará predominantemente la variación relacionada con las diferencias entre las escalas, la variación entre los evaluadores y posiblemente las diferencias relacionadas con el idioma en la interpretación de las descripciones escritas de los casos. Con base en los datos actuales, no podemos desentrañar estos efectos, pero aunque sospechamos que las diferencias menores relacionadas con el idioma en la interpretación de las preguntas tienen poco efecto, es muy posible que las diferencias sistemáticas entre evaluadores distintos de los relacionados con la escala MRC, está sesgado entre grupos, p. ej. que los evaluadores que no estaban familiarizados con la escala MRC tendían a responder «No» a la pregunta n. ° 1.
Limitaciones del estudio
El cuestionario podría haberse distribuido potencialmente a un gran número de médicos de diferentes profesiones en el norte de Europa. Por así decirlo, los datos reflejan solo a los quiroprácticos y es posible que una muestra más amplia de médicos haya arrojado otros resultados. Sin embargo, no tenemos ninguna razón en particular para creerlo, ya que la escala MRC no es específica para ninguna profesión y es parte de muchos libros de texto y guías clínicas comunes para pregraduados.
Además, para restringir la longitud del cuestionario al mínimo (para aumentar la probabilidad de que los participantes lo completen) no preguntamos acerca de características de base tales como edad, sexo, años de práctica, principales intereses clínicos, universidad / facultad de formación, etc. Es posible que tales datos podría haber arrojado asociaciones / contingencias interesantes y ciertamente podría haber descrito la población de estudio con mayor detalle. Tal como están las cosas, la población del estudio solo puede describirse realmente como quiroprácticos norcoreanos.