Studio di Inter-rater reliability sui punteggi ham-d tra gli sperimentatori degli studi multicentrici mc-3 ed mc-4 per la valutazione dell’efficacia e della tollerabilità della same nel trattamento della depressione maggiore

Interrater reliability of HAM-D scores among investigators of the MC-3 and MC-4 multicenter efficacy and safety studies of sulfoadenosylmethionine in the treatment of major depression

P. Pancheri* **, R. Delle Chiaie**, G. Boissard***

* III Clinica Psichiatrica, Universit� di Roma "La Sapienza" ** Fondazione Italiana per lo Studio della Schizofrenia *** Knoll Prodotti Farmaceutici SpA

Parole chiave:
Depressione Maggiore • Disturbi dell’umore • Sulfodenosil metionina (SAMe) • Hamilton Depression Rating Scale (HAM-D) • Inter-rater reliability
Key words:

Major depression • Mood disorders • Sulfodenosyl methionine (SAMe) • Hamilton Depression Rating Scale (HAM-D) • Interrater reliability

Introduzione

Nel corso degli ultimi venti anni gli standard qualitativi per la valutazione dei trattamenti farmacologici hanno subito delle trasformazioni estremamente importanti. Tra queste le pi� significative riguardano l’adozione di metodologie e disegni sperimentali molto sofisticati e complessi, l’impiego di complessi modelli di elaborazione statistica e l’elaborazione dei dati mediante computer.

Nei disegni sperimentali attualmente impiegati per gli studi di efficacia � prevista l’adozione di alcuni standard qualitativi, quali ad esempio il disegno in doppia cecit� con controllo verso placebo, o verso un composto “prototipico” di riferimento. Tuttavia uno degli aspetti che garantisce il maggiore rigore nell’indagine � rappresentato dall’impiego di tecniche di assessment standardizzate, attendibili e replicabili, come ad esempio le rating scales, per la quantificazione del comportamento e per la rilevazione delle modificazioni dell’intensit� dei sintomi, del tono dell’umore e del livello di funzionamento sociale (1) .

Gli studi multicentrici

Per le valutazioni di efficacia e sicurezza di farmaci giunti alle fasi finali del loro iter di sperimentazione, nel corso degli ultimi venti anni, si � diffuso nella comunit� scientifica internazionale il ricorso agli studi multicentrici.

In questi casi il campione sperimentale sul quale viene condotto lo studio, viene raccolto in pi� poli di arruolamento, nazionali o internazionali, ognuno dei quali fornisce un uguale numero di pazienti. Dalla comulazione dei casi raccolti nei singoli centri si ottiene la popolazione sperimentale complessiva, sulla quale vengono condotte le elaborazioni statistiche.

L’adozione di un criterio di arruolamento multicentrico consente non solo di raggiungere dimensioni notevoli del campione sperimentale in un periodo di studio di durata ragionevole, ma permette anche di valutare la generalizzabilit� dei risultati attraverso i differenti tipi di setting.

Questi studi tuttavia possono a volte rivelarsi complessi nell’organizzazione e nel coordinamento. Essi infatti richiedono l’impiego di protocolli molto dettagliati che consentano di eseguire in tutti i siti le procedure di arruolamento e di assessment sulla base di sequenze operative standardizzate e replicabili. � inoltre indispensabile impiegare procedure di monitoraggio qualitativo della gestione del trial, per assicurare la comparabilit� delle osservazioni ottenute nei differenti siti e minimizzare il numero dei drop-out.

� anche molto importante in questi casi far precedere l’inizio degli studi da training degli sperimentatori, specificamente finalizzati al raggiungimento di un soddisfacente accordo inter-rater, al fine di minimizzare la fonte di errore pi� importante, rappresentata in questi casi dalla variabilit� dei criteri di valutazione adottati (2) .

La Reliability e l’Inter-Rater Reliability

Per reliability si intende il concetto empirico rappresentato dall’accordo tra raters su una determinata variabile e, in modo specifico per le scale e per altre variabili quantitative, ci si riferisce alla precisione della misurazione ottenuta.

Nel corso degli ultimi 30 anni sono stati studiati in modo piuttosto sistematico i fattori che posssono concorrere a ridurre in modo significativo l’accordo tra raters. Tra i fattori con maggior frequenza individuati come fonti di disaccordo sono stati:

a) la variabilit� dell’informazione (fenomeno che si verifica quando gli osservatori ottengono le informazioni da fonti differenti);

b) la variabilit� dell’osservazione (che si verifica nel caso in cui i clinici osservino gli stessi dati o fenomeni, ma li valutino differentemente);

c) la variabilit� terminologica (che si verifica quando i clinici osservano gli stessi fenomeni ma giungono a differenti conclusioni in quanto adottano terminologie differenti).

Gli indici di reliability vengono generalmente classificati in base alla fonte di errore della varianza che � in grado di determinarli.

Ad esempio in alcuni casi ci si riferisce alla test-retest reliability. In questo caso l’indice prende in considerazione la stabilit� di un determinato parametro rilevato sullo stesso paziente da uno stesso sperimentatore in occasioni ripetute.

L’indice dell’Inter-rater reliability quantifica invece gli effetti del disaccordo tra un gruppo di sperimentatori sulla valutazione di un determinato parametro clinico in una rilevazione effettuata contemporaneamente su uno stesso paziente o su uno stesso gruppo di pazienti.

Indici di Inter-rater reliability non soddisfacenti possono rappresentare una delle pi� importanti fonti di errore nelle misurazioni effettuate in uno studio clinico multicentrico, nel momento in cui per ottenere una valutazione complessiva sull’intero campione arruolato si cumulano le osservazioni ottenute dagli sperimentatori dei vari centri.

Di conseguenza, poich� in questi studi la variabile di efficacia, mediante la quale si quantifica la validit� del farmaco in esame, � rappresentata dal punteggio di una rating scale, dal momento che questo viene rilevato da pi� ricercatori che operano in poli di arruolamento differenti, per la correttezza metodologica dello studio, � determinante far precedere l’inizio della sperimentazione, prima da un training sul corretto uso della scala e, successivamente, da una rilevazione dell’Inter-rater reliability tra gli sperimentatori dei vari centri.

Solamente nei casi in cui siano individuati dei buoni indici di Inter-rater reliability, le rilevazioni di efficacia ottenute possono essere considerate attendendibili in quanto sufficientemente omogenee e quindi cumulabili, cos� come se fossero state ottenute in un unico centro (3) .

Quantificazione della Inter-rater reliability

Gli indici di reliability venono generalmente classificati a seconda del tipo di errore della varianza che si sta misurando. Uno studio sulla Inter-rater reliability, ad esempio, valuta in che misura i giudizi dei raters sono tra loro in disaccordo. Pertanto il disegno sperimentale per la quantificazione di questi parametri deve prevedere che solo questo, tra i possibili errori di misurazione, possa condizionare la varianza dei punteggi finali. Generalmente, nei casi in cui debba essere calcolata l’Inter-rater reliability all’interno di un gruppo di sperimentatori piuttosto vasto, il protocollo prevede che i raters osservino e valutino uno stesso gruppo di interviste videofilmate di pazienti affetti da un determinato quadro psicopatologico. Dal momento che la reliability rappresenta una misurazione dell’accordo sulle risposte, deve essere unicamente ricercata questa variabile e non il fatto che le risposte fornite siano giuste o meno (4) .

MC-3 ed MC-4

Scopo di questi lavori � stato di analizzare in doppia cecit�, durante un periodo di 3 settimane, l’efficacia antidepressiva della SAMe somministrata oralmente (800 mg/os/die) vs. quella dell’imipramina (100 mg/os/die) (MC-3), e quella della SAMe somministrata per via intramuscolare (800 mg/im/die), sempre vs. imipramina (100 mg/os/die) (MC-4).

L’MC-3 prevedeva la selezione di pazienti con diagnosi di Depressione Maggiore in 18 poli di arruolamento, mentre l’MC-4 in 26 poli. Nell’insieme quindi, l’arruolamento dei pazienti in MC-3 ed MC-4 prevedeva quindi il coinvolgimento di 42 centri.

La misurazione principale di efficacia era rappresentata dal punteggio all’end-point della HAM D-21.

Pertanto, prima di iniziare la fase operativa di selezione ed arruolamento dei pazienti, si � previsto di effettuare sui raters dei 42 centri, uno studio preliminare per la valutazione della Inter-rater reliability sui punteggi di depressione calcolati mediante la Hamiton Depression Rating Scale a 21 item.

Materiali e metodo

Procedura Sperimentale

La procedura sperimentale prevedeva la proiezione di interviste videoregistrate di 10 pazienti con diagnosi di Depressione Maggiore, della durata di circa 30 minuti ciascuna. Ognuna di queste � stata valutata da k investigatori (MC-3:18 investigatori; MC-4:26 investigatori). Da ognuno di essi � stato raccolto il rating al termine delle proiezioni di ognuno dei casi clinici ed � stato calcolato il punteggio complessivo della scala di Hamilton a 21 item.

Gli indici di correlazione inter-rater sono stati calcolati separatamente per i punteggi globali forniti dagli sperimentatori del gruppo MC-3 e per quelli del gruppo MC-4. � stato successivamente calcolato l’indice di correlazione inter-rater per la popolazione cumulata degli sperimentatori delle due multicentriche (MC-3+MC-4).

Al di l� di queste valutazioni condotte sul punteggio globale della scala (il cui punteggio all’end-point rappresentava la misurazione principale di efficacia), al fine di rilevare su quali aree diagnostiche previste dall’HAM-D si fosse verificata la maggiore disomogeneit� di valutazione, la stessa procedura sperimentale � stata adottata anche relativamente ai punteggi forniti dagli sperimentatori su ognuno dei 21 singoli item che compongono lo strumento. Questa valutazione � stata condotta sui rating cumulativi forniti dagli sperimentatori delle due multicentriche.

Analisi Statistica

L’analisi dei dati � stata condotta in base al metodo descritto da Fleiss (5) .I partecipanti al meeting possono essere considerati alla stregua di un campione di un gruppo pi� ampio di raters inclusi nel trial (effetto random).

� stata condotta un’analisi di varianza a due vie, che includeva la valutazione dell’effetto paziente e dell’effetto rater, al fine di verificare:

a) il rater mean square (RMS)

b) il patient mean square (PMS)

c) l’error mean square (EMS)

L’indice di valutazione del Coefficiente di Correlazione Interclasse � rappresentato in questo caso da:

pan_form1.jpg (7167 byte)

dove N rappresenta il numero dei pazienti esaminati e k quello dei raters.

Il suo intervallo di confidenza � dato da:

pan_form2.jpg (9338 byte)

dove:  pan_form3.jpg (9827 byte)

con pan_form4.jpg (4990 byte)

La presenza di raters che fornivano punteggi che si discostavano in modo significativo dal trend di gruppo � stata valutata in accordo con il metodo descritto da Fleiss (5) ,utilizzando il criterio di Bonferroni.

Risultati

MC-3

Hanno partecipato a questa valutazione di Inter-rater reliability 18 investigatori. Di questi, non tutti hanno valutato un ugual numero di interviste cliniche videoregistrate. In Figura 1 viene fornito il numero dei casi valutati per ognuno dei rappresentanti dei 18 centri di arruolamento. Sempre in Figura 1 viene illustrata la distribuzione media dei punteggi di HAM-D forniti dai raters.

All’analisi della varianza l’emergenza di un valore di p di 0.017, corrispondente al fattore “rater”, indica che l’ipotesi di un effetto “rater” identico deve essere respinta. Tuttavia ci� non implica necessariamente che si tratti di un fenomeno di rilevanza pratica. Infatti il valore di R di 0.76 (95% dell’intervallo di confidenza: R > 0.62) risulta effettivamente indicativo di una buona reliability.

Confronti multipli condotti mediante il criterio di Bonferroni non hanno individuato nessun rater significativamente deviante rispetto al trend di gruppo.

MC-4

Hanno partecipato a questa valutazione di Inter-rater reliability 26 investigatori. Di questi, non tutti hanno valutato un ugual numero di interviste cliniche videoregistrate. In Figura 2 viene fornito il numero dei casi valutati per ognuno dei rappresentanti dei 26 centri di arruolamento. Sempre in Figura 2 viene illustrata la distribuzione media dei punteggi di HAM-D forniti dai raters.

All’analisi della varianza l’emergenza di un valore di p di 0.0001, corrispondente al fattore “rater”, indica che l’ipotesi di un effetto “rater” identico deve essere respinta. Tuttavia ci� non implica necessariamente che si tratti di un fenomeno di rilevanza pratica. Infatti il valore di R di 0.80 (95% dell’intervallo di confidenza: R > 0.67) risulta effettivamente indicativo di una buona reliability.

Confronti multipli condotti mediante il criterio di Bonferroni hanno individuato che due rater (Fig. 2) hanno fornito valutazioni significativamente devianti rispetto al trend di gruppo (rater N�8, con una media di 14.7; rater N� 18, con una media di 15, in confronto ad una media generale di 18.1).

MC-3+MC-4

Dalla comulazione degli sperimentatori partecipanti ai 2 studi di Inter-rater reliability � stato ottenuto un pool di 42 investigatori (18 dell’MC-3 + 26 dell’MC-4). In Figura 3 viene illustrata la distribuzione media dei punteggi di HAM-D forniti dai raters.

All’analisi della varianza l’emergenza di un valore di p di 0.0001, corrispondente al fattore “rater”, indica che l’ipotesi di un effetto “rater” identico deve essere respinta. Tuttavia ci� non implica necessariamente che si tratti di un fenomeno di rilevanza pratica. Infatti il valore di R di 0.79 (95% dell’intervallo di confidenza: R > 0.66) risulta effettivamente indicativo di una buona reliability.

Confronti multipli condotti mediante il criterio di Bonferroni hanno individuato che un solo rater (Fig. 3) ha fornito valutazioni significativamente devianti rispetto al trend di gruppo (rater N�13 [rater 8 dello studio MC-4], con una media di 14.7, rispetto ad una media generale di 18).

Coefficiente di correlazione K per i singoli item

Indipendentemente dai buoni indici di concordanza iter-rater calcolati sui punteggi globali (ci� indica che la gravit� clinica globale di ogni paziente � stata valutata dai raters in modo sufficientemente omogeneo), il calcolo dei singoli coefficienti di correlazione K per ognuno dei 21 item della Hamilton D ha permesso di evidenziare su quali aree sintomatologiche previste dalla scala si fosse verificato il maggiore o il minore accordo tra i partecipanti a questa ricerca.

Come � rilevabile in Figura 4, gli item 3 (suicidio), 4 (insonnia iniziale), 5 (insonnia centrale), 12 (sintomi gastro-intestinali), 16 (perdita di peso), 17 (insight) e 18 (variazioni diurne) hanno mostrato un coefficiente di correlazione K = 0.5, che risulta indicativo di una omogeneit� di valutazione significativa.

Questi item, nel complesso, possono essere considerati rappresentativi della struttura nucleare della configurazione sindromica della depressione maggiore. Tuttavia gli item 1 (umore depresso) e 2 (sentimenti di colpa), che pure si inserirebbero in questo gruppo di sintomi “nucleari”, non hanno raggiunto il valore di coefficiente di correlazione inter-rater di 0.5. � possibile ipotizzare che tale fenomeno sia stato in parte condizionato dai contenuti delle interviste videofilmate che, non sempre in modo omogeneo e sovrapponibile, esploravano, o ponevano chiaramente in enfasi, l’intera area sindromica della sintomatologia depressiva maggiore presente nel paziente intervistato. Ci� potrebbe quindi dipendere dal fatto che l’impiego di interviste videofilmate in questi studi sulla valutazione dell’inter-rater-reliability rappresenta un’inevitabile situazione di compromesso in cui, al fine di rendere possibile in tempi rapidi la rilevazione di dati su un campione di rater molto ampio, si sacrifica una parte della ricchezza di dati clinici, probabilmente maggiori, che sarebbero invece risultati fruibili intervistando i pazienti direttamente in vivo ed in presenza di un numero di rater minore.

Conclusioni

Il disegno sperimentale di entrambi gli studi MC-3 ed MC-4 prevedeva che la misura di efficacia principale fosse rappresentata dal punteggio globale dell’HAM D-21 valutato all’end-point.

I risultati di questo studio di Inter-rater reliability condotto sugli sperimentatori di queste due indagini multicentriche, come � stato osservato, confermano che l’accordo di valutazione rilevato tra i raters coinvolti pu� essere considerato sufficiente. Ci� pertanto autorizza e rende possibile la processazione statistica dei dati ottenuti dagli sperimentatori operanti dai differenti poli di arruolamento, cos� come se fossero stati raccolti in un centro singolo.

Questi indici di Inter-rater reliability soddisfacenti, rendono inoltre possibile la generalizzazione dei risultati finali e l’attribuzione ad essi di un significato clinico sufficientemente solido.

La scala Hamilton D rappresenta uno dei primi strumenti di valutazione della sintomatologia depressiva impiegati nella ricerca clinica. La prima versione della scala, che consisteva di 17 item, fu infatti pubblicata nel 1960 (6) .

Gli studi in cui si � valutata la Inter-rater reliability di questa scala hanno quasi sempre riportato dei valori molto elevati per questa variabile. Il primo valore di 0.90 venne riportato da Hamilton stesso (7) .Questo risultato venne ottenuto tuttavia impiegando due raters che, indipendentemente, effettuavano lo scoring su un paziente intervistato in contemporanea da un terzo ricercatore. � probabile che questa procedura sperimentale abbia favorito un’amplificazione delle similitudini tra le valutazione ottenute dai due raters, contribuendo a fornire degli indici di Inter-rater reliability superiori a quelli ottenuti nel nostro campione di sperimentatori degli studi MC-3 ed MC-4. Infatti le stesse informazioni erano rese simultaneamente disponibili ai due valutatori, che operavano in contemporanea all’intervistatore. A conferma di questa ipotesi, anche Knesevich (8) ,utilizzando un procedimento sperimentale simile, ha riportato un risultato di 0.94. I risultati ottenuti da Bech invece (9) ,che ha ripetuto questi esperimenti in pi� occasioni, sono pi� vicini a quelli ottenuti da noi, in quanto variano da 0.88 a 0.98. Dati analoghi sono stati proposti anche da Hedlund e Vieweg (10) ,che hanno pubblicato una review sugli studi disponibili su questo argomento, riportando coefficienti di Inter-rater reliability per la HAM-D variabili da 0.88 a 0.98.

� opportuno a questo punto effettuare alcune considerazioni sui dati da noi ottenuti in questo studio. Infatti, al di l� dell’aver raggiunto degli indici di Inter-rater reliability statisticamente significativi, occorre considerare che in questo caso i risultati sono stati ottenuti su un gruppo di raters molto numeroso, sensibilmente pi� ampio di quelli impiegati nei precedenti studi nei quali era stata valutata la Inter-rater reliability dell’HAM-D. Inoltre il disegno adottato prevedeva la valutazione in contemporanea di interviste di pazienti, presentate tuttavia in forma di videofilm. Quindi, rispetto ad altri studi in cui il disegno prevedeva un’intervista condotta dal vivo, ci� condizionava sicuramente una maggiore dispersione di alcune informazioni clinicamente rilevanti, potendo cos� contribuire all’aumento della varianza dei punteggi.

� importante sottolineare inoltre che la HAM-D non � accompagnata da una lista di domande standardizzate in base alla quale condurre l’intervista. Ci� comporta conseguentemente un ridotto controllo dello strumento sull’information variance, che dipende invece largamente dalla abilit� dell’intervistatore.

Per il controllo sulla varianza dei ratings si fa unicamente riferimento ad un glossario di termini e ad una descrizione del significato di ogni livello di gravit�. Anche se per molti item ogni livello di gravit� viene ancorato ad un criterio obiettivo, ci� non � tuttavia possibile per tutti gli item. In questi casi la scelta tra “leggero”, “moderato” e “grave” viene quindi interamente lasciata al giudizio del clinico (11) .

� probabile che queste caratteristiche dello strumento di valutazione tendano, almeno in parte, a condizionare buona quota della dispersione dei punteggi intorno alla media. Ci� malgrado il training preliminare condotto dai coordinatori delle due multicentriche MC-3 ed MC-4, prima di procedere operativamente con le valutazioni dei videotapes, ha consentito di minimizzare questi limiti intrinseci dell’HAM-D.

I risultati di questa ricerca consentono quindi di concludere che, al termine della fase di arruolamento dei pazienti in questi due multicentriche, i dati raccolti dagli investigatori operanti nei vari poli coinvolti, potranno essere considerati sufficientemtente omogenei, tra loro paragonabili e, conseguentemente, valutabili in modo cumulativo.

Fig 1.
Distribuzione del punteggio globale della HAM-D tra gli sperimentatori dello studio MC-3 (SAMe per os vs. imipramina per os).
Distribution of global HAM-D scores by raters of MC-3 investigation (SAMe per os vs. imipramine per os).

pan_fig1.jpg (22274 byte)

Fig 2.
Distribuzione del punteggio globale della HAM-D tra gli sperimentatori dello studio MC-4 (SAMe i.m. vs. imipramina per os).
Distribution of global HAM-D scores by raters of MC-4 investigation (SAMe i.m. vs. imipramine per os.).

pan_fig2.jpg (26250 byte)

Fig 3.
Distribuzione del punteggio globale della HAM-D tra tutti gli sperimentatori coinvolti nei due studi (MC-3+MC-4).
Distribution of global HAM-D scores by pooled raters of MC-3 and MC-4 investigations.

pan_fig3.jpg (14765 byte)

Fig 4.
Coefficiente di correlazione (K) inter-rater per ognuno dei singoli item della HAM-D a 21 item impiegata nel presente studio. Un valore di K = 0.5 indica che l’ “accordo” inter-rater su quel singolo item pu� essere considerato soddisfacente. Valori di K = 0.5 sono stati rilevati relativamente agli item 3 (suicidio), 4 (insonnia iniziale), 5 (insonnia centrale), 12 (sintomi gastro-intestinali), 16 (perdita di peso), 17 (insight), 18 (variazioni diurne) che, pur se in modo approssimativo, nel complesso delineano le caratteristiche nucleari della sindrome depressiva maggiore.
Inter-rater correlation coefficient (K) for each single item of the 21 item version HAM-D used in the present investigation. AK value = 0.5 is considered the expression of a good inter-rater “agreement”. K values = 0.5 were found for item 3 (suicide), item 4 (initial insomnia), item 5 (central insomnia), item 12 (gastro-intestinal symptoms), item 16 (weight loss), item 17 (insight ) and item 18 (diurnal variations). These items, on the whole, delineate the core symptomathology of the major depressive syndrome.

pan_fig4.jpg (44170 byte)

1 Thompson C.
The instruments of Psychiatric Research.
New York: Wiley 1989.

2 Rush AJ, Gullion CM, Raskin A, Kellner R, Bartko JJ.
Assessment and measurement of Clinical Change.
In : RF Prien, DS Robinson, eds. Clinical evaluation of psychotropic drugs. New York: Raven Press 1994.

3 Dunn G.
Design and analysis of reliability studies. The statistical evaluation of measurement errors.
London E Arnold 1989.

4 Fleiss JL.
Balanced incomplete blocks designs for inter-rater reliability studies.
Applied Psychological Measures 1981;5:105-112.

5 Fleiss JL.
The design and analysis of clinical experiments.
New York: Wiley 1986.

6 Hamilton M.
Rating Scale for Depression.
Journal of Neurology, Neurosurgery and Psychiatry 1960;23:56-62.

7 Hamilton M.
Standardised assessment of depressive symptoms.
Psychiatry, Neurology, Neurosurgery 1969;72:201-205.

8 Knesevich JW, Biggs JT, Clayton PJ.
Validity of the Hamilton rating scale for depression.
British Journal of Psychiatry 1977;131:49-52.

9 Bech P, Allerup P, Gram LF, Reisby N.
The Hamilton Depression Scale: Evaluation and objectivity using logistic models.
Acta Psichiatrica Scandinavica 1981;63:290-299.

10 Hedlund JL, Vieweg BW.
The Hamilton rating scale for depression: a comprehensive review.
Journal of Operational Psychiatry 1979;10:149-165.

11 Kearns NP, Cruickshank CA, McGuigan KJ.
A comparison of Depression rating Scales.
British Journal of Psychiatry 1982;141:45-49.