sopsi         

Loading

P. Pancheri, R. Delle Chiaie, G. Boissard - Vol. 6, Marzo 2000, num.1

Testo Immagini Bibliografia Summary Riassunto Indice

Articolo regolare/Regular article

Studio di Inter-rater reliability sui punteggi ham-d tra gli sperimentatori degli studi multicentrici mc-3 ed mc-4 per la valutazione dell’efficacia e della tollerabilità della same nel trattamento della depressione maggiore
Interrater reliability of HAM-D scores among investigators of the MC-3 and MC-4 multicenter efficacy and safety studies of sulfoadenosylmethionine in the treatment of major depression

P. Pancheri* **, R. Delle Chiaie**, G. Boissard***

* III Clinica Psichiatrica, Università di Roma "La Sapienza"
** Fondazione Italiana per lo Studio della Schizofrenia
*** Knoll Prodotti Farmaceutici SpA

Parole chiave:
Depressione Maggiore • Disturbi dell’umore • Sulfodenosil metionina (SAMe) • Hamilton Depression Rating Scale (HAM-D) • Inter-rater reliability
Key words:

Major depression • Mood disorders • Sulfodenosyl methionine (SAMe) • Hamilton Depression Rating Scale (HAM-D) • Interrater reliability

Introduzione

Nel corso degli ultimi venti anni gli standard qualitativi per la valutazione dei trattamenti farmacologici hanno subito delle trasformazioni estremamente importanti. Tra queste le più significative riguardano l’adozione di metodologie e disegni sperimentali molto sofisticati e complessi, l’impiego di complessi modelli di elaborazione statistica e l’elaborazione dei dati mediante computer.

Nei disegni sperimentali attualmente impiegati per gli studi di efficacia è prevista l’adozione di alcuni standard qualitativi, quali ad esempio il disegno in doppia cecità con controllo verso placebo, o verso un composto "prototipico" di riferimento. Tuttavia uno degli aspetti che garantisce il maggiore rigore nell’indagine è rappresentato dall’impiego di tecniche di assessment standardizzate, attendibili e replicabili, come ad esempio le rating scales, per la quantificazione del comportamento e per la rilevazione delle modificazioni dell’intensità dei sintomi, del tono dell’umore e del livello di funzionamento sociale (1) .

Gli studi multicentrici

Per le valutazioni di efficacia e sicurezza di farmaci giunti alle fasi finali del loro iter di sperimentazione, nel corso degli ultimi venti anni, si è diffuso nella comunità scientifica internazionale il ricorso agli studi multicentrici.

In questi casi il campione sperimentale sul quale viene condotto lo studio, viene raccolto in più poli di arruolamento, nazionali o internazionali, ognuno dei quali fornisce un uguale numero di pazienti. Dalla comulazione dei casi raccolti nei singoli centri si ottiene la popolazione sperimentale complessiva, sulla quale vengono condotte le elaborazioni statistiche.

L’adozione di un criterio di arruolamento multicentrico consente non solo di raggiungere dimensioni notevoli del campione sperimentale in un periodo di studio di durata ragionevole, ma permette anche di valutare la generalizzabilità dei risultati attraverso i differenti tipi di setting.

Questi studi tuttavia possono a volte rivelarsi complessi nell’organizzazione e nel coordinamento. Essi infatti richiedono l’impiego di protocolli molto dettagliati che consentano di eseguire in tutti i siti le procedure di arruolamento e di assessment sulla base di sequenze operative standardizzate e replicabili. È inoltre indispensabile impiegare procedure di monitoraggio qualitativo della gestione del trial, per assicurare la comparabilità delle osservazioni ottenute nei differenti siti e minimizzare il numero dei drop-out.

È anche molto importante in questi casi far precedere l’inizio degli studi da training degli sperimentatori, specificamente finalizzati al raggiungimento di un soddisfacente accordo inter-rater, al fine di minimizzare la fonte di errore più importante, rappresentata in questi casi dalla variabilità dei criteri di valutazione adottati (2) .

La Reliability e l’Inter-Rater Reliability

Per reliability si intende il concetto empirico rappresentato dall’accordo tra raters su una determinata variabile e, in modo specifico per le scale e per altre variabili quantitative, ci si riferisce alla precisione della misurazione ottenuta.

Nel corso degli ultimi 30 anni sono stati studiati in modo piuttosto sistematico i fattori che posssono concorrere a ridurre in modo significativo l’accordo tra raters. Tra i fattori con maggior frequenza individuati come fonti di disaccordo sono stati:

a) la variabilità dell’informazione (fenomeno che si verifica quando gli osservatori ottengono le informazioni da fonti differenti);

b) la variabilità dell’osservazione (che si verifica nel caso in cui i clinici osservino gli stessi dati o fenomeni, ma li valutino differentemente);

c) la variabilità terminologica (che si verifica quando i clinici osservano gli stessi fenomeni ma giungono a differenti conclusioni in quanto adottano terminologie differenti).

Gli indici di reliability vengono generalmente classificati in base alla fonte di errore della varianza che è in grado di determinarli.

Ad esempio in alcuni casi ci si riferisce alla test-retest reliability. In questo caso l’indice prende in considerazione la stabilità di un determinato parametro rilevato sullo stesso paziente da uno stesso sperimentatore in occasioni ripetute.

L’indice dell’Inter-rater reliability quantifica invece gli effetti del disaccordo tra un gruppo di sperimentatori sulla valutazione di un determinato parametro clinico in una rilevazione effettuata contemporaneamente su uno stesso paziente o su uno stesso gruppo di pazienti.

Indici di Inter-rater reliability non soddisfacenti possono rappresentare una delle più importanti fonti di errore nelle misurazioni effettuate in uno studio clinico multicentrico, nel momento in cui per ottenere una valutazione complessiva sull’intero campione arruolato si cumulano le osservazioni ottenute dagli sperimentatori dei vari centri.

Di conseguenza, poiché in questi studi la variabile di efficacia, mediante la quale si quantifica la validità del farmaco in esame, è rappresentata dal punteggio di una rating scale, dal momento che questo viene rilevato da più ricercatori che operano in poli di arruolamento differenti, per la correttezza metodologica dello studio, è determinante far precedere l’inizio della sperimentazione, prima da un training sul corretto uso della scala e, successivamente, da una rilevazione dell’Inter-rater reliability tra gli sperimentatori dei vari centri.

Solamente nei casi in cui siano individuati dei buoni indici di Inter-rater reliability, le rilevazioni di efficacia ottenute possono essere considerate attendendibili in quanto sufficientemente omogenee e quindi cumulabili, così come se fossero state ottenute in un unico centro (3) .

Quantificazione della Inter-rater reliability

Gli indici di reliability venono generalmente classificati a seconda del tipo di errore della varianza che si sta misurando. Uno studio sulla Inter-rater reliability, ad esempio, valuta in che misura i giudizi dei raters sono tra loro in disaccordo. Pertanto il disegno sperimentale per la quantificazione di questi parametri deve prevedere che solo questo, tra i possibili errori di misurazione, possa condizionare la varianza dei punteggi finali. Generalmente, nei casi in cui debba essere calcolata l’Inter-rater reliability all’interno di un gruppo di sperimentatori piuttosto vasto, il protocollo prevede che i raters osservino e valutino uno stesso gruppo di interviste videofilmate di pazienti affetti da un determinato quadro psicopatologico. Dal momento che la reliability rappresenta una misurazione dell’accordo sulle risposte, deve essere unicamente ricercata questa variabile e non il fatto che le risposte fornite siano giuste o meno (4) .

MC-3 ed MC-4

Scopo di questi lavori è stato di analizzare in doppia cecità, durante un periodo di 3 settimane, l’efficacia antidepressiva della SAMe somministrata oralmente (800 mg/os/die) vs. quella dell’imipramina (100 mg/os/die) (MC-3), e quella della SAMe somministrata per via intramuscolare (800 mg/im/die), sempre vs. imipramina (100 mg/os/die) (MC-4).

L’MC-3 prevedeva la selezione di pazienti con diagnosi di Depressione Maggiore in 18 poli di arruolamento, mentre l’MC-4 in 26 poli. Nell’insieme quindi, l’arruolamento dei pazienti in MC-3 ed MC-4 prevedeva quindi il coinvolgimento di 42 centri.

La misurazione principale di efficacia era rappresentata dal punteggio all’end-point della HAM D-21.

Pertanto, prima di iniziare la fase operativa di selezione ed arruolamento dei pazienti, si è previsto di effettuare sui raters dei 42 centri, uno studio preliminare per la valutazione della Inter-rater reliability sui punteggi di depressione calcolati mediante la Hamiton Depression Rating Scale a 21 item.

Materiali e metodo

Procedura Sperimentale

La procedura sperimentale prevedeva la proiezione di interviste videoregistrate di 10 pazienti con diagnosi di Depressione Maggiore, della durata di circa 30 minuti ciascuna. Ognuna di queste è stata valutata da k investigatori (MC-3:18 investigatori; MC-4:26 investigatori). Da ognuno di essi è stato raccolto il rating al termine delle proiezioni di ognuno dei casi clinici ed è stato calcolato il punteggio complessivo della scala di Hamilton a 21 item.

Gli indici di correlazione inter-rater sono stati calcolati separatamente per i punteggi globali forniti dagli sperimentatori del gruppo MC-3 e per quelli del gruppo MC-4. È stato successivamente calcolato l’indice di correlazione inter-rater per la popolazione cumulata degli sperimentatori delle due multicentriche (MC-3+MC-4).

Al di là di queste valutazioni condotte sul punteggio globale della scala (il cui punteggio all’end-point rappresentava la misurazione principale di efficacia), al fine di rilevare su quali aree diagnostiche previste dall’HAM-D si fosse verificata la maggiore disomogeneità di valutazione, la stessa procedura sperimentale è stata adottata anche relativamente ai punteggi forniti dagli sperimentatori su ognuno dei 21 singoli item che compongono lo strumento. Questa valutazione è stata condotta sui rating cumulativi forniti dagli sperimentatori delle due multicentriche.

Analisi Statistica

L’analisi dei dati è stata condotta in base al metodo descritto da Fleiss (5) .I partecipanti al meeting possono essere considerati alla stregua di un campione di un gruppo più ampio di raters inclusi nel trial (effetto random).

È stata condotta un’analisi di varianza a due vie, che includeva la valutazione dell’effetto paziente e dell’effetto rater, al fine di verificare:

a) il rater mean square (RMS)

b) il patient mean square (PMS)

c) l’error mean square (EMS)

L’indice di valutazione del Coefficiente di Correlazione Interclasse è rappresentato in questo caso da:

pan_form1.jpg (7167 byte)

dove N rappresenta il numero dei pazienti esaminati e k quello dei raters.

Il suo intervallo di confidenza è dato da:

pan_form2.jpg (9338 byte)

dove:  pan_form3.jpg (9827 byte)

con pan_form4.jpg (4990 byte)

La presenza di raters che fornivano punteggi che si discostavano in modo significativo dal trend di gruppo è stata valutata in accordo con il metodo descritto da Fleiss (5) ,utilizzando il criterio di Bonferroni.

Risultati

MC-3

Hanno partecipato a questa valutazione di Inter-rater reliability 18 investigatori. Di questi, non tutti hanno valutato un ugual numero di interviste cliniche videoregistrate. In Figura 1 viene fornito il numero dei casi valutati per ognuno dei rappresentanti dei 18 centri di arruolamento. Sempre in Figura 1 viene illustrata la distribuzione media dei punteggi di HAM-D forniti dai raters.

All’analisi della varianza l’emergenza di un valore di p di 0.017, corrispondente al fattore "rater", indica che l’ipotesi di un effetto "rater" identico deve essere respinta. Tuttavia ciò non implica necessariamente che si tratti di un fenomeno di rilevanza pratica. Infatti il valore di R di 0.76 (95% dell’intervallo di confidenza: R > 0.62) risulta effettivamente indicativo di una buona reliability.

Confronti multipli condotti mediante il criterio di Bonferroni non hanno individuato nessun rater significativamente deviante rispetto al trend di gruppo.

MC-4

Hanno partecipato a questa valutazione di Inter-rater reliability 26 investigatori. Di questi, non tutti hanno valutato un ugual numero di interviste cliniche videoregistrate. In Figura 2 viene fornito il numero dei casi valutati per ognuno dei rappresentanti dei 26 centri di arruolamento. Sempre in Figura 2 viene illustrata la distribuzione media dei punteggi di HAM-D forniti dai raters.

All’analisi della varianza l’emergenza di un valore di p di 0.0001, corrispondente al fattore "rater", indica che l’ipotesi di un effetto "rater" identico deve essere respinta. Tuttavia ciò non implica necessariamente che si tratti di un fenomeno di rilevanza pratica. Infatti il valore di R di 0.80 (95% dell’intervallo di confidenza: R > 0.67) risulta effettivamente indicativo di una buona reliability.

Confronti multipli condotti mediante il criterio di Bonferroni hanno individuato che due rater (Fig. 2) hanno fornito valutazioni significativamente devianti rispetto al trend di gruppo (rater N°8, con una media di 14.7; rater N° 18, con una media di 15, in confronto ad una media generale di 18.1).

MC-3+MC-4

Dalla comulazione degli sperimentatori partecipanti ai 2 studi di Inter-rater reliability è stato ottenuto un pool di 42 investigatori (18 dell’MC-3 + 26 dell’MC-4). In Figura 3 viene illustrata la distribuzione media dei punteggi di HAM-D forniti dai raters.

All’analisi della varianza l’emergenza di un valore di p di 0.0001, corrispondente al fattore "rater", indica che l’ipotesi di un effetto "rater" identico deve essere respinta. Tuttavia ciò non implica necessariamente che si tratti di un fenomeno di rilevanza pratica. Infatti il valore di R di 0.79 (95% dell’intervallo di confidenza: R > 0.66) risulta effettivamente indicativo di una buona reliability.

Confronti multipli condotti mediante il criterio di Bonferroni hanno individuato che un solo rater (Fig. 3) ha fornito valutazioni significativamente devianti rispetto al trend di gruppo (rater N°13 [rater 8 dello studio MC-4], con una media di 14.7, rispetto ad una media generale di 18).

Coefficiente di correlazione K per i singoli item

Indipendentemente dai buoni indici di concordanza iter-rater calcolati sui punteggi globali (ciò indica che la gravità clinica globale di ogni paziente è stata valutata dai raters in modo sufficientemente omogeneo), il calcolo dei singoli coefficienti di correlazione K per ognuno dei 21 item della Hamilton D ha permesso di evidenziare su quali aree sintomatologiche previste dalla scala si fosse verificato il maggiore o il minore accordo tra i partecipanti a questa ricerca.

Come è rilevabile in Figura 4, gli item 3 (suicidio), 4 (insonnia iniziale), 5 (insonnia centrale), 12 (sintomi gastro-intestinali), 16 (perdita di peso), 17 (insight) e 18 (variazioni diurne) hanno mostrato un coefficiente di correlazione K = 0.5, che risulta indicativo di una omogeneità di valutazione significativa.

Questi item, nel complesso, possono essere considerati rappresentativi della struttura nucleare della configurazione sindromica della depressione maggiore. Tuttavia gli item 1 (umore depresso) e 2 (sentimenti di colpa), che pure si inserirebbero in questo gruppo di sintomi "nucleari", non hanno raggiunto il valore di coefficiente di correlazione inter-rater di 0.5. È possibile ipotizzare che tale fenomeno sia stato in parte condizionato dai contenuti delle interviste videofilmate che, non sempre in modo omogeneo e sovrapponibile, esploravano, o ponevano chiaramente in enfasi, l’intera area sindromica della sintomatologia depressiva maggiore presente nel paziente intervistato. Ciò potrebbe quindi dipendere dal fatto che l’impiego di interviste videofilmate in questi studi sulla valutazione dell’inter-rater-reliability rappresenta un’inevitabile situazione di compromesso in cui, al fine di rendere possibile in tempi rapidi la rilevazione di dati su un campione di rater molto ampio, si sacrifica una parte della ricchezza di dati clinici, probabilmente maggiori, che sarebbero invece risultati fruibili intervistando i pazienti direttamente in vivo ed in presenza di un numero di rater minore.

Conclusioni

Il disegno sperimentale di entrambi gli studi MC-3 ed MC-4 prevedeva che la misura di efficacia principale fosse rappresentata dal punteggio globale dell’HAM D-21 valutato all’end-point.

I risultati di questo studio di Inter-rater reliability condotto sugli sperimentatori di queste due indagini multicentriche, come è stato osservato, confermano che l’accordo di valutazione rilevato tra i raters coinvolti può essere considerato sufficiente. Ciò pertanto autorizza e rende possibile la processazione statistica dei dati ottenuti dagli sperimentatori operanti dai differenti poli di arruolamento, così come se fossero stati raccolti in un centro singolo.

Questi indici di Inter-rater reliability soddisfacenti, rendono inoltre possibile la generalizzazione dei risultati finali e l’attribuzione ad essi di un significato clinico sufficientemente solido.

La scala Hamilton D rappresenta uno dei primi strumenti di valutazione della sintomatologia depressiva impiegati nella ricerca clinica. La prima versione della scala, che consisteva di 17 item, fu infatti pubblicata nel 1960 (6) .

Gli studi in cui si è valutata la Inter-rater reliability di questa scala hanno quasi sempre riportato dei valori molto elevati per questa variabile. Il primo valore di 0.90 venne riportato da Hamilton stesso (7) .Questo risultato venne ottenuto tuttavia impiegando due raters che, indipendentemente, effettuavano lo scoring su un paziente intervistato in contemporanea da un terzo ricercatore. È probabile che questa procedura sperimentale abbia favorito un’amplificazione delle similitudini tra le valutazione ottenute dai due raters, contribuendo a fornire degli indici di Inter-rater reliability superiori a quelli ottenuti nel nostro campione di sperimentatori degli studi MC-3 ed MC-4. Infatti le stesse informazioni erano rese simultaneamente disponibili ai due valutatori, che operavano in contemporanea all’intervistatore. A conferma di questa ipotesi, anche Knesevich (8) ,utilizzando un procedimento sperimentale simile, ha riportato un risultato di 0.94. I risultati ottenuti da Bech invece (9) ,che ha ripetuto questi esperimenti in più occasioni, sono più vicini a quelli ottenuti da noi, in quanto variano da 0.88 a 0.98. Dati analoghi sono stati proposti anche da Hedlund e Vieweg (10) ,che hanno pubblicato una review sugli studi disponibili su questo argomento, riportando coefficienti di Inter-rater reliability per la HAM-D variabili da 0.88 a 0.98.

È opportuno a questo punto effettuare alcune considerazioni sui dati da noi ottenuti in questo studio. Infatti, al di là dell’aver raggiunto degli indici di Inter-rater reliability statisticamente significativi, occorre considerare che in questo caso i risultati sono stati ottenuti su un gruppo di raters molto numeroso, sensibilmente più ampio di quelli impiegati nei precedenti studi nei quali era stata valutata la Inter-rater reliability dell’HAM-D. Inoltre il disegno adottato prevedeva la valutazione in contemporanea di interviste di pazienti, presentate tuttavia in forma di videofilm. Quindi, rispetto ad altri studi in cui il disegno prevedeva un’intervista condotta dal vivo, ciò condizionava sicuramente una maggiore dispersione di alcune informazioni clinicamente rilevanti, potendo così contribuire all’aumento della varianza dei punteggi.

È importante sottolineare inoltre che la HAM-D non è accompagnata da una lista di domande standardizzate in base alla quale condurre l’intervista. Ciò comporta conseguentemente un ridotto controllo dello strumento sull’information variance, che dipende invece largamente dalla abilità dell’intervistatore.

Per il controllo sulla varianza dei ratings si fa unicamente riferimento ad un glossario di termini e ad una descrizione del significato di ogni livello di gravità. Anche se per molti item ogni livello di gravità viene ancorato ad un criterio obiettivo, ciò non è tuttavia possibile per tutti gli item. In questi casi la scelta tra "leggero", "moderato" e "grave" viene quindi interamente lasciata al giudizio del clinico (11) .

È probabile che queste caratteristiche dello strumento di valutazione tendano, almeno in parte, a condizionare buona quota della dispersione dei punteggi intorno alla media. Ciò malgrado il training preliminare condotto dai coordinatori delle due multicentriche MC-3 ed MC-4, prima di procedere operativamente con le valutazioni dei videotapes, ha consentito di minimizzare questi limiti intrinseci dell’HAM-D.

I risultati di questa ricerca consentono quindi di concludere che, al termine della fase di arruolamento dei pazienti in questi due multicentriche, i dati raccolti dagli investigatori operanti nei vari poli coinvolti, potranno essere considerati sufficientemtente omogenei, tra loro paragonabili e, conseguentemente, valutabili in modo cumulativo.