Användning av 4+ för att gradera nästan normal muskelstyrka förbättrar inte överensstämmelsen
Denna studie syftar till att undersöka om utvidgning av standard MRC-skalan till en modifierad MRC-skala förbättrar överensstämmelse och minskar variationen av värderingarna.
Sammantaget visar data inte en större procentuell överensstämmelse i den modifierade MRC-gruppen jämfört med standard MRC-gruppen och visuell inspektion i fig. 1 och 2 antyder att om något finns större variation mellan betyg och mellan fall i den modifierade MRC-gruppen.
Den genomsnittliga avvikelsesanalogen visade sig också vara större i nio av tio jämförelser (alla fem fall, begränsade och inte begränsad) i den modifierade MRC-gruppen jämfört med standard MRC-gruppen, liksom för alla fall kombinerat, vilket indikerar att betyg var jämnare fördelade och mindre fokuserade i den modifierade MRC-gruppen.
Kappa-värden för både standard- och modifierade MRC-skalor var mycket låga (0,05 resp. 0,14). Även om hypotesen att ingen överenskommelse som överstiger ren chansöverenskommelse (kappa = 0) för båda skalorna avvisades med p < 0,0001, tycktes det finnas en ganska stor variation i den givna betyg och styrkan för överenskommelsen är dålig för båda betygsgrupperna.
Försiktighet bör iakttas när man drar slutsatser från den observerade procentuella överenskommelsen, genomsnittlig avvikelse analog och kappa på grund av att antalet kategorier ökas av en när man byter från standard-MRC till den modifierade MRC-skalan. Till exempel, med en ökning från 2 till 3 kategorier på en given skala, minskar den minsta möjliga procentuella överensstämmelse som kan observeras från 50% till 33,3%. Ada-index som sträcker sig från 0 till 1 övervinner detta problem genom att dess maximi- och minimivärden inte beror på antalet kategorier. Mellanliggande ada-index minskar dock vanligtvis när antalet kategorier ökar i vilka fall klassificeras, vilket inte nödvändigtvis behåller fallens ordning när de ordnas enligt deras ada-index (se Wilcox ”Index för kvalitativ variation …” för en illustrativ Exempel).
Med andra ord, med fler tillgängliga kategorier att välja mellan, kommer avtalet sannolikt att minska (och spridning att öka), åtminstone om hela skalans spännvidd används. noterade emellertid att det aktuella frågeformuläret avsiktligt var utformat för att fokusera på en mycket begränsad del av skalan: med två korrekta svar (betyg 4 och 5) på standard MRC-skala och endast ett (4+) på Om en större överensstämmelse och lägre spridning verkligen hade hittats i den modifierade MRC-gruppen som hypotes, så kan detta till viss del ha varit resultatet av mer (2 mot 1) korrekta svarsalternativ på standard MRC-skalan Men som beskrivet är den nuvarande upptäckten Det tyder på lägre överensstämmelse och större spridning i den modifierade MRC-gruppen, trots effekterna av skillnader i antal kategorier. I avsnittet nedan diskuterar vi om de fem fallen faktiskt framgångsrikt konstruerades på ett sådant sätt att de fokuserade på svar på 4 eller 5 på standard MRC-skalan och 4+ på den modifierade skalan.
Slutligen är kappa ett mått på överenskommelse som vanligtvis används i studier med ett relativt stort antal fall och ett relativt litet antal betyg. Den kan tillämpas på situationer med ett lågt antal fall som bedöms av ett större antal betyg, men kommer vanligtvis att resultera i relativt låga kappa-värden. Oavsett detta skulle förväntningen fortfarande vara att se en minskning av kappa när antalet kategorier ökas, dvs. gå från standard MRC till modifierad MRC (se t.ex. Altmann ”Praktisk statistik för medicinsk forskning”).
Sammanfattningsvis är överenskommelsen dålig för båda skalorna. Det faktum att vi observerade en ökning av kappa, när vi använde den modifierade istället för standard MRC-skalan, kunde i princip ses som en indikation på något ökad överensstämmelse med den modifierade MRC-skalan. Detta kan dock inte testas noggrant, eftersom standardfel för den observerade förändringen i kappa-värden inte är tillgängliga i det givna sammanhanget. Däremot indikerar en ökning av ada för den modifierade MRC-skalan en större kvalitativ variation i betyg jämfört med standarden MRC och därmed mindre konsensus bland dessa bedömare. Att observera att procentandelen minskar i de flesta fall såväl som för samtliga fall ger inte ytterligare indikationer på förbättrad överenskommelse och inneslutningar förblir således ambivalenta. Sammantaget tyder data inte på en tydlig förbättring av överensstämmelse med den modifierade MRC-skalan.
Fallbeskrivningar
Med fall som är särskilt utformade för att beskriva muskelsvaghet tvetydigt i det grå området mellan 4 och 5 på standard-MRC-skalan, kunde man förvänta sig att betyg i standard-MRC-gruppen skulle vara osäkra på vilken av de två alternativen att välja.Omvänt kan betygsättare i den modifierade MRC-gruppen lösa sådan osäkerhet genom att välja det ”mellersta” värdet på ”4+”. Detta förväntades i sin tur leda till större överensstämmelse och mindre variation i betyg i den modifierade MRC-gruppen jämfört med standard MRC-gruppen. Som slutsatsen visade sig detta inte vara fallet.
En tvetydigt beskriven svaghet någonstans mellan ”4” och ”5” bör inte förväntas resultera i en lika fördelning av ”4” och ”5”. betyg i standard MRC-gruppen och det är rimligt att förvänta sig att kliniker lägger större vikt vid de onormala resultaten i fallbeskrivningen än på de normala resultaten. Grad 4 var faktiskt ungefär 3 tre gånger vanligare än ”5” i standard-MRC-gruppen.
Förutom fall C kan svar på ”3” eller mindre i standard-MRC-gruppen generellt tillskrivas till deltagare som inte känner till MRC-skalan och / eller deltagare som har vänt upp och ner på skalan och gjort flest fall som 0, 1 eller 2. Den högre frekvensen av svar på ”3” och mindre i standard-MRC-gruppen förklaras av formulering av fråga nr 1. Deltagare som inte känner till MRC-skalan svarar naturligtvis ”Nej” på fråga nr 1 och placerar dem därmed i standard MRC-gruppen. Raters som inte känner till MRC-skalan skulle således huvudsakligen hittas i standard-MRC-gruppen. För att motverka detta har vi presenterat resultat baserat på alla tillgängliga data (obegränsad) samt data begränsade till lämpliga svar i den övre änden av skalan.
Fördelningen av svaren i fall A var väsentligen lika mellan grupper, med ”4+” ersätter helt enkelt ”4” i den modifierade MRC-gruppen. I fall B valde dock ett proportionellt större antal betyg i den modifierade MRC-gruppen ”4”, trots att alternativet ”4+” var tillgängligt för dem. Som beskrivs i avsnittet ovan valde vissa betygsförare ”3” i fall C – inte på grund av okändhet med skalan, utan för att de kände svaghet mot tyngdkraften och gradvis ökande svaghet motiverade en grad ”3”. I vilket fall som helst valde den stora majoriteten av betyg i standard-MRC-gruppen ”4” i fall C, medan den modifierade MRC-gruppen spriddes mer enhetligt över ”4”, ”4+” och ”5”, där endast 3 betyg valde 3. Fall D skilde sig från de andra fallen genom att svaret gavs i fallbeskrivningen: Du hittar en svaghetsklass 4, och dessutom gavs svaghetens karaktär som främst smärtrelaterad. Intressant nog klassificerade 44% av standard MRC-gruppen och 31% av den modifierade MRC-gruppen fallet som ”5”. Med andra ord valde ett stort antal betyg att översätta en svaghet av grad 4 till grad 5 när de informerades om att svaghetens natur var smärtrelaterad (i motsats till neuromuskulär). Standard MRC-gruppen delades därmed nästan jämnt mellan betyg 5 och 4. Den modifierade MRC-gruppen valde å andra sidan det förväntade svaret ”4+” i endast 9% av svaren (det lägsta i något av fallen) och svarade ”4” i 60% av svaren. Man kan argumentera för att en hög grad av svar betyg 4 är inte överraskande, eftersom fallbeskrivningen specifikt föreslog att en grad 4 observerades. Båda grupperna hade dock liten reservation när de valde ”5” trots fallbeskrivningen och dessutom skulle alternativet ”4+” tillgängligt för den modifierade MRC-gruppen också vara i linje med fallbeskrivningen och skulle kunna fungera som ett sätt att kvalificera en betyg 4 svaghet som smärtrelaterad – ändå var det det minst vanliga svaret i den modifierade MRC-gruppen (bar de 2 svaren på 0). Tillgängligheten av ett alternativ ”4+” frestade uppenbarligen inte den modifierade MRC-gruppen att välja den grad som ett sätt att kvalificera svagheten som smärtrelaterad. Trots att fall E hade den minst övertygande beskrivningen av svaghet valde 15% av den modifierade MRC-gruppen fortfarande ”4” – återigen var tillgängligheten av ett ”4+” -alternativ inte svängande eller förbättrade överenskommelsen.
Sammantaget skulle vi alltså argumentera för att de fem fallen var ambivalent formulerade på ett sådant sätt att de gynnade ett mellersta svar i det grå området mellan 4 och 5. Om man accepterar denna förutsättning borde resultaten utan tvekan ha varit större överensstämmelse i den modifierade MRC-gruppen jämfört med standard MRC-gruppen. Istället lade alternativet ”4+” uppenbarligen bara till ett extra svarsalternativ att vara ambivalent mot, vilket resulterade i större snarare än mindre skillnad i den modifierade MRC-gruppen.
Den aktuella studien undersökte bara effekten av att lägga till 4+ till MRC-skalan, eftersom slutet på skalan verkar vara det svåraste att betygsätta. Baserat på aktuella data kan vi inte säga om de mer omfattande modifierade skalorna som föreslås av Medical Research Council, Barr et al. Paternostro-Sluka et al. eller Bohannon skulle resultera i större enighet, men det verkar osannolikt eftersom ett ännu större antal betyg utan tydliga definitioner sannolikt bara kommer att resultera i ännu större spridning.Det är naturligtvis helt möjligt att överenskommelsen skulle förbättras snarare än att försämras med tillägget av mellanliggande betyg som ”4+”, om sådana betyg tydligt definierades med objektiva begränsningar – så är dock inte fallet.
De aktuella resultaten är inte baserade på faktiska, fysiska undersökningar av muskelsvaghet och var inte avsedda att undersöka giltigheten av manuell muskeltestning som sådan. Istället betyder den skriftliga beskrivningen av kliniska fynd som presenterades för deltagarna att variationer på grund av olika undersökningstekniker och partiskhet relaterade till patientens efterlevnad eliminerades. Såvitt vi vet har inga jämförbara frågeformulärsstudier presenterats tidigare. Samtliga betyg fick samma kliniska resultat (om än på sitt modersmål). Variabilitet i föreliggande data kommer således huvudsakligen att återspegla varians relaterad till skillnader mellan skalorna, variation mellan betyg och eventuellt språkrelaterade skillnader i tolkning av de skriftliga fallbeskrivningarna. Baserat på de aktuella uppgifterna kan vi inte disagagera dessa effekter, men även om vi misstänker att mindre språkrelaterade skillnader i tolkningen av frågorna har liten effekt är det mycket möjligt att systematiska skillnader mellan andra betyg än de som rör MRC-skalan, är skev mellan grupper – t.ex. att bedömare som inte känner till MRC-skalan tenderade att svara ”Nej” på fråga nr.
Studiebegränsningar
Frågeformuläret kunde potentiellt ha distribuerats till ett mycket stort antal kliniker från olika yrken i norra Europa. Uppgifterna speglar som det bara kiropraktorer och det är möjligt att ett bredare urval av kliniker kunde ha gett andra resultat. Vi har dock ingen särskild anledning att tro det, eftersom MRC-skalan inte är specifik för ett yrke och ingår i många vanliga läroböcker och kliniska riktlinjer.
Också för att begränsa frågeformulärets längd till ett absolut minimum (för att öka sannolikheten för att deltagare slutför det) frågade vi inte om baslinjeegenskaper som ålder, kön, år i praktiken, huvudsakliga kliniska intressen, utbildning / högskola etc. Det är möjligt att sådana data kunde ha kastat upp intressanta föreningar / oförutsedda förhållanden och det kunde verkligen ha beskrivit studiepopulationen mer detaljerat. Som det är, kan studiepopulationen bara beskrivas som northeuropeiska kiropraktorer.