L'articolo è stato pubblicato sul n. 26- 2003 di "INDUZIONI. Demografia, probabilità, statistica a scuola".
Ringraziamo il Direttore e la Redazione della Rivista per averne concesso la pubblicazione sul nostro sito.

 

 

COME SI FANNO I SONDAGGI

di Elio Brusati
Direttore Scientifico dell'IstitutoDoxa

  

  1. IL SONDAGGIO PER CAMPIONE "SCIENTIFICO"
  2. LA PROGETTAZIONE DEL SONDAGGIO
  3. IL CAMPIONAMENTO
  4. LA RILEVAZIONE
  5. LA ELABORAZIONE
  6. IL MONDO DEI SONDAGGI
  7. BIBLIOGRAFIA

 

1. IL SONDAGGIO PER CAMPIONE "SCIENTIFICO" 

"Facciamo un sondaggio", oppure:" Qui ci vorrebbe un sondaggio": sono frasi che capita di sentire. Più spesso ancora:" Che cos'è questo sondaggio?" A tutti noi può capitare di imbatterci in un sondaggio. Sia in modo passivo, perché qualcuno, per esempio un mass medium, ci propone i risultati di un sondaggio che può interessarci, e ci chiediamo se trattasi di cosa seria e meritevole della nostra attenzione, e sia in modo attivo, perché, assillati dall'interrogativo "Che cosa ne penserà la gente?", siamo noi stessi che avremmo voglia di fare un sondaggio, e ci domandiamo come lo faremmo se ne avessimo la possibilità.

In questo capitolo ci si propone di dare risposte semplici, corredate da facili esempi, alla seguente domanda: Che cos'è un sondaggio "scientifico?", e cioè come si fa a riconoscere  un sondaggio che, pur non essendo sufficientemente scientifico, non sarebbe meritevole della nostra fiducia? Oppure a quest'altra: Come deve essere fatto un sondaggio, affinché abbia i requisiti, appunto, del sondaggio scientifico?

Definiamo il sondaggio al quale vogliamo riferirci nel modo seguente: è un sondaggio per campione quello con il quale si vuole stimare la risposta di una data popolazione, detto universo, ad una data interrogazione, interrogando un numero limitato di persone appartenenti a tale universo, e scelte in modo da rappresentarlo statisticamente, il cui insieme è detto campione, ed accogliendo i risultati come se provenissero, in termini relativi (percentuali, medie, ecc.), dall'interrogazione dell'intero universo, e ciò entro un margine di errore possibile che è accettabile, ed è comunque anch'esso stimabile, perché dipende essenzialmente dal numero di persone che compongono il campione (l'errore è tanto più piccolo quanto più è grande tale numero).

Il carattere scientifico del sondaggio dipende proprio dalla effettiva idoneità del campione prelevato dall'universo ed effettivamente interrogato a rappresentare statisticamente 'universo, cioè a costituirne una fedele riproduzione, sia pure in miniatura. Insomma, il campione, perché si possa parlare di sondaggio scientifico, deve essere effettivamente rappresentativo del proprio universo. Fare un sondaggio buono e credibile comporta l'osservanza anche di molti altri canoni e requisiti di qualità, che riguardano tutte le attività di esecuzione del sondaggio, ma il carattere scientifico e in sostanza l'effettiva validità del sondaggio, dipende soprattutto dal conseguimento di una autentica rappresentatività statistica del campione, e quindi dall'adozione di metodi e tecniche di campionamento atti a garantire tale conseguimento.

Ciò che conta, dunque, è la rappresentatività statistica del campione nei confronti dell'universo dal quale viene prelevato per fare il sondaggio. Ma in che cosa consiste, di fatto, la rappresentatività statistica? Come è riconoscibile questo requisito? Ecco la risposta: un campione può dirsi rappresentativo del proprio universo quando c'è l'identità delle proporzioni secondo le quali sono presenti, nell'uno e nell'altro, i vari caratteri della popolazione. A cominciare dai caratteri cosiddetti sociodemografici (il sesso, l'età, il grado di istruzione, la condizione professionale, ecc.) e geografici (la regione di residenza, l'ampiezza demografica del comune, ecc.), ma comprendendo qualunque altro carattere che sia possibile immaginare (di tipo antropometrico come la satura o il peso, di tipo socioculturale o psicologico, ecc.). Se la proporzionalità tra campione e universo sussiste con riguardo a qualsivoglia carattere (o variabile), potremo aspettarci che anche con riguardo alle variabili ancora incognite, sulle quali ci proponiamo di indagare con il nostro sondaggio (p. es. le opinioni sul tema dell'eutanasia), vi sia quell'identità di proporzioni tra campione ed universo che costituisce il presupposto della rappresentatività statistica. E che quindi sia possibile, osservando le risposte date dal campione per tali variabili incognite, trarre una stima delle risposte che sulle stesse avrebbe potuto dare l'intero universo.

Il problema pratico è dunque, per chi vuole realizzare (o riconoscere) un sondaggio che sia autenticamente scientifico, quello di adottare (o di accertare l'avvenuta adozione di) un metodo che consente di conseguire quella voluta identità di proporzioni, tra campione e universo, e la sua estensione ad una gamma di variabili così vasta (anzi letteralmente infinita): Esiste, è possibile escogitare un metodo capace di una prestazione simile, che a prima vista apparirebbe alla portata soltanto di chi sapesse operare un miracolo o una magia? Ebbene sì, un tale metodo esiste, ed è stato scoperto dalla scienza statistica: si tratta del metodo della scelta casuale (o random).

Fatta questa premessa sul concetto di rappresentatività statistica sul campione come presupposto fondamentale della validità scientifica del sondaggio, possiamo passare in rassegna i vari momenti del processo produttivo del sondaggio, descrivendone le finalità, le modalità operative più classiche e le relative varianti, e le problematiche più ricorrenti alla prova dei fatti. Ma prima dobbiamo dire delle attività o fase che precede tutte le altre, che le definisce tutte le organizza in un quadro d'insieme organico e razionale: la progettazione del sondaggio.

 

2. LA PROGETTAZIONE DEL SONDAGGIO 

Naturalmente l'esecuzione di un buon sondaggio non può non cominciare se non dopo che ne sia stata fatta una buona - e cioè attenta, completa e competente - progettazione.

Il progettista del sondaggio non può che prendere le mosse dalla considerazione e studio del bisogno del sondaggio, sentendo chi ne è il vero portatore. Costui di solito è anche il promotore o committente del sondaggio. L'embrione, il primo input da cui nasce l'idea di fare il sondaggio può essere più o meno specificato e sviluppato da parte del promotore, il quale può limitarsi ad impartire un sommario briefing alla persona (detta ricercatore) o alla organizzazione (detto istituto demoscopico oppure agenzia specializzata) che intende incaricare (o invitare alla partecipazione ad una gara per l'aggiudicazione) dell'esecuzione del sondaggio. Oppure il promotore può arrivare fino alla specificazione completa sia degli obiettivi che di tutte le modalità dell'opera a cui intende dare vita, diventando di fatto egli stesso il vero progettista del sondaggio. Comunque un punto fermo di partenza, sia esso un'idea appena abbozzata oppure già un progetto o pre-progetto quasi definitivo e qualunque che ne sia l'emanatore, hanno da esserci. Non può nascere un sondaggio se non c'è un motivo per farlo e qualcuno che per tale motivo voglia farlo.

La progettazione è lo sviluppo realizzativo delle idee di partenza e sarà una buona progettazione se:

1.        partirà da una chiara e realistica definizione degli obiettivi del sondaggio (chi vogliamo interrogare e per sapere che cosa e a quale scopo);

2.        comprenderà una scelta competente e una descrizione esauriente dei metodi e dei mezzi tecnici da adottare e dell'entità delle risorse e dell'investimento da destinare alla realizzazione dell'opera;

3.        il tutto con la massima completezza, cioè con riferimento a tutte le fasi operative: il campionamento (quante persone devono essere intervistate e come devono essere scelte, ecc.); la rilevazione (con quale metodo e mezzi devono essere fatte le interviste, con quale questionario, da quali e quanti intervistatori e in base a quali istruzioni, ecc.); la elaborazione e la utilizzazione finale dei risultati (quali dati statistici devono essere prodotti, con quali metodi di trattamento e calcolo, in quale forma, accompagnati da quale tipo di documentazione e interpretazione devono essere presentati e a chi, ecc.);

4.        il tutto, infine, con la precisa indicazione dei tempi necessari per completare le varie attività previste e degli oneri che devono essere sostenuti per le medesime.

 

2.1 La definizione degli obiettivi 

Per la definizione degli obiettivi del sondaggio, che è il primo atto della progettazione, occorre dare risposte precise ed esaurienti ai quesiti fondamentali sulla ragione di essere del sondaggio, che sono: chi vogliamo interrogare, su che cosa, e perché. Chi: qual è l'universo del quale vogliamo prelevare un campione rappresentativo, per interrogarlo. Non debbono esserci lacune o ambiguità nella definizione dell'universo. Per esempio: non basta dire che l'universo è dato dalla popolazione italiana adulta (è questo l'universo che viene considerato nella maggior parte dei sondaggi d'opinione che si fanno): Occorre precisare la soglia inferiore d'età dalla quale si intende fare partire la qualifica di adulta (di solito i 18 anni per i sondaggi politico-elettorali ed i 15 anni - ma spesso addirittura i 14 - per i sondaggi di mercato), se si vuole porre anche una soglia superiore di età (per i sondaggi dell'opinione pubblica non  lo si fa quasi mai e si usa dire dai 18 anni in su, oppure di almeno 18 anni; nei sondaggi di mercato lo si fa qualche volta, quando il prodotto oggetto di studio è assolutamente al di fuori degli interessi degli anziani ed in tal caso si pone la soglia p.es. dei 75 anni o quella dei 65; in questo caso l'universo viene definito così: gli adulti dai 15 ai 75 - o 65 - anni).

Inoltre, per evitare possibili equivoci, e per sottolineare il rigore scientifico del sondaggio, conviene ricordare, a costo di apparire un po' ridondanti, che si tratta dell'intera popolazione nazionale, residente (meglio sarebbe dire presente) in tutte le regioni e in tutti i tipi di comuni. Alcuni amano aggiungere di ambo i sessi. Naturalmente l'universo deve essere noto statisticamente, cioè non soltanto nel suo ammontare, ma anche nella sua composizione secondo i caratteri socio-demografici (sesso, età, ecc.), in modo da poter disporre di dati precisi sui quali basare - come vedremo - le nostre procedure di stratificazione e le nostre verifiche della rappresentatività. Questi dati sull'universo, naturalmente, li potremo sempre attingere dalle statistiche ufficiali, cioè dai censimenti della popolazione o dalle statistiche anagrafiche e, poco male, se si tratta di dati non così aggiornati come si vorrebbe.

L'altro ordine di quesiti a cui occorre rispondere per definire compiutamente gli obiettivi del sondaggio riguarda il tema che si vuole trattare nell'interrogazione: che cosa vogliamo chiedere e perché, cioè quali deduzioni ci aspettiamo di trarre delle risposte, quale tipo di valutazioni statistiche e per farne quale uso in pratica. La definizione dei temi che il sondaggio deve affrontare dovrà sfociare, subito, già nel momento della progettazione, o almeno nel momento di preparare nei dettagli l'attività di rilevazione (cioè di intervista), in quello che diventerà il documento più importante del sondaggio, il questionario, cioè la lista con il testo preciso di tutte le domande che gli intervistatori dovranno rivolgere alle persone che verranno scelte per far parte del campione, che dovranno essere formulate sempre nello stesso modo, cioè attenendosi rigidamente, sia all'ordine che nel testo delle domande, al questionario.

Solo dopo che sono state messe a punto con sufficiente precisione le suddette definizioni dei soggetti e dell'oggetto che devono essere considerati nel sondaggio, che costituiscono il termine di riferimento essenziale e la stessa ragione di essere, si può dare vita ai lavori esecutivi. Conviene distinguere i lavori del sondaggio in tre grandi aree di attività: il campionamento, la rilevazione e l'elaborazione.

  

3. IL CAMPIONAMENTO

Alla pianificazione di un campionamento idoneo a conseguire il requisito della rappresentatività statistica, il ricercatore e i suoi collaboratori devono dedicare la propria attività e la propria migliore attenzione e competenza in due momenti diversi, di due fasi successive: la prima volta al momento del campionamento propriamente detto, e cioè nella fase che consiste nel porre in atto le operazioni di calcolo preliminare e di selezione casuale delle unità da estrarre dall'universo, cioè tutte le operazioni che possono e debbono essere fatte a tavolino, prima di far scendere in campo la macchina della rilevazione, con intervistatori, questionari e tutto il resto.

Questa prima fase si conclude con la messa a punto del campione designato per essere intervistato, cioè già scelto in tutte le sue unità componenti, di cui è stata assicurata la capacità rappresentativa. Ma, non essendo ancora fatte le interviste e neanche alcun tentativo di contatto e di intervista con le persone designate, non si può ancora considerare questo campione quello reale e definitivo che verrà effettivamente utilizzato per il sondaggio. Per ora si tratta soltanto di una proposta di campione. Ecco perché abbiamo detto che le operazioni di campionamento si svolgono in due momenti diversi: il secondo è quello in cui ha luogo la selezione finale delle unità di campionamento, in particolare degli intervistati effettivi, che resteranno - a tutti i fini - i soli ed autentici casi che comporranno il campione osservato o trattato per il sondaggio. E il requisito della rappresentatività nei confronti dell'universo dovrà essere ottenuto o verificato proprio con riferimento a questo campione effettivamente trattato. Non basterebbe vantare la rappresentatività conferita alla proposta di campione uscita dalle operazioni di campionamento effettuate a tavolino (che magari sono state comode e facili), se la stessa rappresentatività non potesse essere estesa, cioè confermata per il campione effettivamente intervistato. Nelle operazioni del secondo momento (queste effettuate non più a tavolino, ma sul campo, quindi più irte di difficoltà), molte persone che erano state scelte e designate per entrare a far parte del campione non hanno potuto essere intervistate per motivi vari (per rifiuto, assenza da casa, ecc.) e non sono state sostituite oppure sono state sostituite da altre. Né sostituzioni delle persone che non si è potute intervistare, né di quelle scelte per le eventuali sostituzioni, non è più verificata la capacità di formare, esse stesse, da sole un campione rappresentativo, perché soltanto se una tale capacità sussistesse, l'inconveniente potrebbe essere considerato indolore per la rappresentatività.

Delle operazioni della prima fase, quelle a tavolino, ci occuperemo in questa sezione, dedicata al campionamento vero e proprio; invece delle operazioni della seconda fase, quella che ha il suo svolgimento sul campo, ci occuperemo nella sezione dedicata alla rilevazione.

Abbiamo già anticipato che per fare in modo che il campione prelevato dall'universo risulti rappresentativo dell'universo, così da poterlo considerare una fedele riproduzione del medesimo in quanto qualunque carattere vi è presente nelle stesse proporzioni, è necessario e sufficiente che gli individui da includere nel campione vengano scelti in modo assolutamente casuale, proprio come i numeri della tombola dal sacchetto. Perciò, nel caso che si disponga di un'unica lista di nominativi, che comprenda tutti i componenti dell'universo, non importa in quale ordine siano disposti (l'ordine alfabetico va benissimo, ma anche se fossero disposti del tutto alla rinfusa andrebbe benissimo lo stesso), basterebbe estrarre dalla lista, appunto a caso, il numero di nominativi voluto e si avrebbe la certezza di estrarre un campione rappresentativo, proprio perché casuale. Si suole usare proprio questo aggettivo, "casuale" - attribuito ad un campione - per significarne, senza altre specificazioni, la capacità rappresentativa. In questo senso possiamo usare anche l'aggettivo "probabilistico", che può essere ritenuto un buon sinonimo di casuale. Il metodo più consueto per estrarre a caso, da una lista di nominativi, un campione, è quello detto sistematico, che consiste nel dividere anzitutto il numero di componenti dell'universo N  per il numero voluto di componenti del campione n (ottenendo il quoziente Q = N/n). Quindi cominciare con l'estrarre il nominativo che occupa il P.mo posto nella lista (essendo P un numero di partenza scelto a caso e inferiore o uguale a Q) ed estrarre, poi, i nominativi che occupano nella lista i posti (P+Q).mo, (P+2Q).mo, (P+3Q).mo, ecc., fino al(P+(n-1)Q).mo.

L'estrazione sistematica è soddisfacente quanto e più di una estrazione casuale o probabilistica in senso stretto e cioè non deve essere ritenuta - come a prima vista si sarebbe indotti a credere - contraddittoria con essa. Infatti, in presenza di liste che - come accade normalmente - sono in qualche modo organizzate (per esempio, i nominativi sono raggruppati per regioni e, all'interno di ogni regione, sono disposti in ordine alfabetico), assicura una copertura totale ed equilibrata non solo dell'intero arco di sviluppo della lista, ma anche dei singoli segmenti di cui questa si compone.

Il caso dell'universo contenuto in un'unica lista è il più semplice, ma nella pratica non è il più frequente. Normalmente, prima dell'estrazione casuale degli individui da intervistare (cioè delle unità finali di campionamento), si procede - per ragioni sia di comodità o necessità dettate dalla complessità dell'universo, sia di utilità dettate dalla possibilità di conseguire ulteriori vantaggi dal punto di vista della rappresentatività statistica - attraverso una o più fasi di pre-stratificazione secondo caratteri geografici o di altro tipo, spesso anche attraverso una organizzazione a due o più stadi, che prevede l'estrazione di diversi ordini delle unità di campionamento, prima delle unità finali (che sono sempre gli individui da intervistare).

Per descrivere i procedimenti della pre-stratificazione e del campionamento a più stadi, ricorriamo all'esempio del più classico e più diffuso dei casi che si incontra nella pratica dei campionamenti, quello in cui l'universo da rappresentare è dato dalla intera popolazione adulta.

 

3.1 La dimensione del campione 

Supponiamo, dunque, di volere fare un sondaggio mirato all'universo dell'intera popolazione adulta italiana. Prima di affrontare i problemi della pre-stratificazione e del campionamento a più stadi, occorre parlare della scelta della dimensione del campione, cioè del numero delle interviste che vogliamo fare. Questa scelta non deve obbedire soltanto a ragioni di tipo scientifico o tecnico, ma deve anche tenere conto di esigenze di tipo strategico e forse andrebbe collocata per questo nel capitolo riguardante la definizione degli obiettivi del sondaggio, in cui devono riassumersi le scelte strategiche volute dai suoi promotori ed autori: chi interrogare e su che cosa, abbiamo detto, ed ora aggiungiamo il terzo criterio strategico: quante interviste conviene fare per conseguire in modo ottimale gli obiettivi proposti.

Uno degli elementi fondamentali che il ricercatore considera per la scelta della dimensione "n" del proprio campione è il rischio di "errore accidentale" a cui va incontro, che dipende appunto da tale dimensione, essendo inversamente proporzionale alla radice di n. Ma si tratta anche, e soprattutto, di una valutazione di "ragionevolezza". Un sondaggio richiede sempre un notevole investimento, in termini di risorse impiegate (lavoro degli intervistatori e degli esecutori del trattamento statistico dei dati, produzione del materiale, viaggi, ecc.) e questi oneri tendono ad essere proporzionali al numero dei "casi" osservati, cioè delle interviste fatte, nonché alla quantità delle informazioni rilevate e sottoposte a trattamento statistico, quindi, in sostanza, al numero delle domande rivolte agli intervistati. Se viene scelta una dimensione del campione esagerata, perché superiore al minimo sufficiente per ottenere risultati attendibili, aventi il grado di precisione necessario, tenuto conto degli obiettivi del sondaggio, la scelta potrebbe essere criticata come sprecona. Se, al contrario, il numero dei casi fosse inferiore a quello necessario per garantire un accettabile "margine di errore possibile", la scelta potrebbe essere giudicata imprudente, perché tale da compromettere la credibilità, o quanto meno il prestigio e l'autorevolezza del sondaggio. Anche la pura valutazione tecnico-scientifica deve essere il frutto di un proprio compromesso, perché mentre da un lato occorre tenere conto del grado di precisione che deve possedere il risultato globale (riferito al totale degli intervistati), dall'altro lato occorre tenere conto del grado di dettaglio al quale si vorrà spingere l'analisi dei dati secondo i caratteri socio-demografici. In certi casi una discreta precisione del risultato globale è considerata sufficiente, perché dal sondaggio ci si aspetta soltanto un rapido "flash"; in altri casi le analisi dei risultati secondo alcuni caratteri come il sessi, l'età o la tendenza politica sono utili per la migliore interpretazione del risultato globale; in altri casi, infine, si tratta di una ricerca così approfondita che interessa soltanto, o soprattutto, le elaborazioni analitiche dei dati.

Il "rischio di errore" viene misurato con la seguente formula, detta dell'errore standard di campionamento (che si riferisce agli errori accidentali che possono essere commessi, perché siamo incappati, per pura sfortuna, in un campione che, nonostante la corretta scelta casuale, è affetto da qualche difetto di rappresentatività: sono esclusi, naturalmente, tutti gli eventuali errori sistematici, dovuti a errori, o meglio sbagli, commessi dal ricercatore per imperizia o mala fede):

e =  ± k

nella quale P è la percentuale rilevata nel sondaggio; n è il numero dei casi osservati, cioè delle interviste, k è un moltiplicatore che dipende dal "livello di confidenza" desiderato. Di solito si sceglie k = 2, il che significa attribuire all'errore standard il seguente significato: vi sono 95 probabilità su 100 che l'errore accidentale che si può commettere non superi l'entità e. (Se si vuole k = 1, le probabilità sono soltanto 68 su 100; se si prende k = 3, le probabilità salgono a 997 su 1000; è comunque prassi comune adottare k=2 e considerare la probabilità o livello di confidenza del 95%, quella che si suole chiamare anche certezza statistica). Se si vuole l'ancor più confortante livello di confidenza del 99%, basta adottare il valore per k di 2,58.

Il concetto di errore standard è, dunque, quello di un margine, in più o meno rispetto alla percentuale rilevata, entro il quale può essere accolta la percentuale rilevata nel campione come stima della percentuale che verrebbe rilevata se venisse interrogato l'intero universo. Questo margine viene anche detto margine (o intervallo) fiduciario.

Per dare un'idea dell'ordine di grandezza dell'entità dell'errore standard di campionamento, proponiamo la Fig. A, in cui sono riportate, in corrispondenza con 7 diverse dimensioni campionarie (100, 200, 500 casi, come esempi delle dimensioni specialmente dei sub-campioni interni, in quanto sottogruppi di sesso, età, ecc., interessanti per la valutazione del grado di significatività delle analisi; invece, 500 casi, 1000, 2000, ecc., come esempi delle più classiche dimensioni del campione totale di un sondaggio) e in corrispondenza con 7 diversi livelli della percentuale rilevata (5%, 10%, 20%, 50%, ecc.), le misure dell'errore standard di campionamento, espresse in due forme (da usare ciascuna a seconda del tipo di valutazione del peso che l'errore può avere):

1) in percentuale su n (detta anche percentuale stimata, o semplicemente stima);

2) in percentuale della stima, cioè, in pratica, in percentuale della percentuale su n.

Ad esempio: nella cella di un incrocio tra n = 1000 e P = 5%si legge che una percentuale di 5%va accolta entro un margine di ± 1,38% (attorno al 5%, dunque compreso tra 3,62% e 6,38%), oppure, entro un margine di 27,6% della stima (1,38 su 5 = 27,6%).

Per fare l'esempio di un sondaggio su un campione della popolazione adulta, che supponiamo riguardante le opinioni su temi vari di attualità, immaginiamo di trovarci nell'uno o nell'altro dei seguenti tre casi:

1.        interessa soltanto un rapido flash sull'ordine di grandezza globale delle grandi correnti di opinione (per esempio, sapere se ci sono o non ci sono maggioranze veramente nette favorevoli o contrarie a varie tesi). Una dimensione campionaria di 500 casi potrebbe essere considerata sufficiente, perché su percentuali comprese tra 20% e 80%, l'ordine di grandezza dell'errore è contenuto tra 4% e 4,5% e non supera il 25% della stima neppure nel caso del valore minimo (20%) di questa. Le analisi secondo spaccature dicotomiche del campione (per esempio, secondo giovani e non giovani sotto i 35 anni) interessano relativamente e, comunque, per quelle ci si può accontentare di un margine di errore di 6-7% (vedi righe corrispondenti a n = 200 casi). Tuttavia, siccome il sondaggio è abbastanza importante e si vuole salvaguardarne l'immagine di autorevolezza, si preferisce la dimensione di 1000 casi, che consente di ridurre in modo sensibile l'errore: da 4,0 - 4,5% a 3,0 - 3,2% e di consentire migliori analisi anche secondo 2-4 sottogruppi di 200-500 casi ciascuno (errore molto inferiore a 7%).

2.        Il sondaggio è molto importante e interessa la misura delle maggioranze o delle minoranze anche se non sono vistose. Le analisi secondo caratteri con 4-5 modalità (per esempio, l'area geografica) sono molto importanti per la lettura dei risultati. Si impone la dimensione classica di 2000 casi, che consente di contenere l'errore attorno al 2% (circa il 5 - 10% della stima) per le percentuali di 20-50% e attorno all'1% (sotto il 20% della stima) anche per le piccole percentuali di 5-10%.

3.        Si tratta di un'importante ricerca sociologica. Occorre una grande precisione delle stime globali e le analisi dei risultati, che devono essere fatte anche secondo caratteri con una dozzina di modalità (come per esempi, le regioni o i gruppi di piccole regioni contigue), sono fondamentali per la buona interpretazione dei fenomeni studiati. In questo caso ci vuole un campione di almeno 5000 casi, che consente di contenere l'errore sotto l'1 - 1,5% per le percentuali di 20-80% e sotto l'1% (attorno al 10% della stima) per le mini-percentuali di 5-10%. Se poi il committente valutasse come estremamente importante il prestigio scientifico della ricerca ed i ricercatori non si accontentassero di leggere le percentuali relative ai sottogruppi più piccoli su soli 200-300 casi (e volessero leggere anche quelle con 400-500 casi), la dimensione dell'indagine dovrebbe essere - borsa del committente permettendo - raddoppiata, portando il campione attorno ai 10.000 casi. La dimensione massima del campione (anche molto superiore ai 10.000 casi) diventa indispensabile quando oggetto principale di stima sono molti micro-fenomeni, corrispondenti a percentuali di penetrazione di meno di 5-10%, ma da stimare con grande precisione, anche in senso relativo. Si pensi alle indagini fatte per stimare i lettori di oltre un centinaio di testate quotidiane e periodiche (readership survey, in Italia realizzata da Audipress), molte delle quali hanno soltanto una o poche centinaia di migliaia di lettori (una stima di 100 mila corrisponde appena allo 0,2% dell'universo!).

 

Fig. A - Valore del margine (in + o in -9 dell'errore standard di campionamento (in relazione alla dimensione del campione n, alla percentuale stimata P e al livello di confidenza del 95%)

 

 

P - percentuale rilevata nel campione

n - numero dei casi

5%

10%

20%

50%

80%

90%

95%

100   e)

E)

4,36

87,2

6,00

60,0

9,47

47,3

10,0

20,0

9,47

11,8

6,00

6,7

4,36

4,6

200    e)

E)

3,08

61,6

4,24

42,4

6,69

33,5

7,07

14,1

6,69

8,4

4,24

4,7

3,08

3,2

500    e)

E)

1,95

39,0

2,68

26,8

4,23

21,2

4,47

8,9

4,23

5,3

2,68

3,0

1,95

2,1

1.000    e)

E)

1,38

27,6

1,90

19,0

2,99

15,0

3,16

6,3

2,99

3,7

1,90

2,1

1,38

1,5

2.000    e)

E)

0,97

19,5

1,34

13,4

2,12

10,6

2,24

4,5

2,12

2,6

1,34

1,5

0,97

1,0

5.000    e)

E)

0,62

12,3

0,85

8,5

1,34

6,7

14,1

2,8

1,34

1,7

0,85

0,9

0,62

0,6

10.000    e)

E)

0,44

8,7

0,60

6,0

0,95

4,7

1,00

2,0

0,95

1,2

0,60

0,7

0,44

0,5

 

e)            Margine misurato in percentuale del totale universo.

Esempio: una stima di 5% (o una del 95%), risultante da un campione di 100 casi - si veda prima (o ultima) casella della prima riga (e), in cui si legge 4,36 - è esposta ad oscillare tra un minimo di 0,64% dell'universo (=5 - 4,36) e un massimo di 9,36% (= 5 + 4,36), oppure, nel caso 95%, tra 90,64% ( = 95 - 4,36) e 99,36% (= 5 + 4,36).

               

                E)            Margine misurato in percentuale di stima

Esempio: una stima di 5% (o una del 95%), risultante da un campione di 100 casi - si veda prima (o ultima) casella della prima riga (E), in cui si legge 87,2  (o del 4,6%) - è esposta ad oscillare tra un valore che è del 87,2%  (o del 4,6) più piccolo ed uno più grande che è dell'87,2 % (o del 4,6%) più grande. Infatti 4,36% è pari all'87,2% di 5 e al 4,6% di 95.

 

3.2 La pre-stratificazione

Le operazioni di costruzione e selezione del campione cominciano sempre con una pre-stratificazione, ossia con la pianificazione della distribuzione delle interviste programmate secondo alcune specifiche combinazioni di caratteri, a cominciare, naturalmente, da quelli geografici.

Questi caratteri sono i primi ai quali si pensa sia perché la prima domanda che viene naturale porsi è dove cercare le persone da includere nel campione e dove fare le interviste, sia perché i caratteri legati all'appartenenza geografica della popolazione sono certamente tra i più importanti, in quanto indicatori di varie tipologie etnico-culturali, quindi meritevoli di essere tenuti sotto controllo per il conseguimento della proporzionalità all'universo, quindi della rappresentatività statistica.

Per la costruzione dei campioni della popolazione adulta italiana la preliminare pre-stratificazione geografica viene fatta normalmente utilizzando la combinazione di due caratteri: la regione e la classe di ampiezza demografica dei comuni. L'incrocio tra i due caratteri dà luogo a celle (o, appunto, strati) del tipo "popolazione residente nei comuni con meno di 10.000 abitanti della regione Piemonte". Pre-stratificare il campione significa pianificare che la quota-parte di interviste da fare in ciascun strato sia pari alla quota di universo residente nello strato stesso. (si vedano nella Fig. B i valori dell'universo della popolazione adulta italiana e di un campione di 1000 casi, che lo rappresenta e gli è proporzionale secondo i caratteri regione e classe di ampiezza dei comuni.

Se si dispone delle fonti adatte per operare un scelta casuale delle unità di campionamento (cioè di archivi molto adatti allo scopo, come sono i registri elettorali), la pre-stratificazione può essere limitata ai due caratteri geografici. Tutt'al più se ne potrebbe aggiungere un terzo, molto semplice e utile, il sesso, suddividendo ogni strato geografico in due parti uguali, una da assegnare ai maschi e l'altra alle femmine.

Nei casi in cui non si vuole o non si può utilizzare alcun archivio contenente le liste nominative dell'universo, occorre sviluppare ulteriormente il piano di pre-stratificazione: per ogni strato geografico occorre calcolare, in base alle statistiche ufficiali (censimento), le quote secondo le quali la popolazione si ripartisce, oltre che secondo sesso, anche secondo classi di età, titolo di studio, condizione professionale, ecc., e affidare la funzione della scelta finale delle persone alla fase di rilevazione sul campo, cioè agli intervistatori. E' questo il metodo cosiddetto delle quote; apparentemente potrebbe sembrare migliore di ogni altro metodo, perché l'estensione ad un maggior numero di variabili importanti, oltre a quelle geografiche, del controllo della giusta proporzionalità all'universo, non può che essere vantaggiosa. Inoltre, quando ci si affida per il conseguimento delle giuste proporzioni per età, titolo di studio, ecc. alla scelta casuale da una lista delle persone, si ha la garanzia di un buon risultato, ma si resta comunque esposti, come per qualunque altra variabile, al famoso errore di campionamento. Invece, quando si tengono sotto preciso controllo (mediante la pre-stratificazione) le quote di tali caratteri, si ha la certezza che, almeno per quelli, non c'è neppure il rischio, sia pur calcolato, dell'errore di campionamento. In realtà, il metodo delle quote non è affatto migliore di altri metodi basati sull'uso di liste di nominativi, perché tale metodo deve fare i conti con errori non accidentali ma sistematici, ancorché involontari, nei quali la scelta finale delle persone da intervistare, fatta sul campo dall'intervistatore, può facilmente incorrere. L'intervistatore rispetta sempre le quote assegnategli, cioè, per esempio, intervista effettivamente, come prescrittogli dalle istruzioni, 3 uomini che hanno oltre 55 anni di età, non hanno alcun titolo di studio oltre a quello elementare, sono pensionati; purtroppo finisce per sceglierli tra i più disponibili e socievoli, tra i più colti nonostante il basso livello di scolarità, perché più facili da contattare e da convincere a rilasciare un'intervista. Ma così facendo include nel campione, forse senza neppure rendersene conto, esemplari poco rappresentativi di tale categoria di uomini.

La conclusione, dunque, è questa: pre-stratificare è necessario, almeno per i caratteri geografici ed è anche un fattore di miglioramento della rappresentatività, perché sottrae i caratteri considerati nella pre-stratificazione all'alea dell'errore di campionamento; però non bisogna abusare di questa pratica, estendendola anche a caratteri che non è possibile controllare adeguatamente nella scelta definitiva sul campo, dove l'applicazione del criterio casuale è molto più problematica che a tavolino.

 

3.4 Gli stadi di campionamento

L'adozione  del metodo del campionamento a due o più stadi è praticamente obbligata in presenza di un universo così grande e complesso come la popolazione italiana, non fosse altro che per ragioni, appunto, di praticità, perché gli archivi che contengono le liste di tutti i componenti dell'universo sono frazionate - anche fisicamente, nello spazio, almeno fino a quando gli archivi non saranno completamente centralizzati e informatizzati - in migliaia (vedi i comuni) o in decine di migliaia (vedi le sezioni elettorali) di sub-archivi indipendenti tra loro.

Conviene infatti organizzare le operazioni di selezione delle unità di campionamento che interessano - gli individui da intervistare - mediante l'utilizzo preliminare di unità ausiliarie di campionamento più grandi, che di unità individuali ne contengono parecchie, già raggruppate entro aggregati statisticamente utili, come i comuni (tutti gli archivi di popolazione esistenti, le liste elettorali, le liste anagrafiche e le liste telefoniche presentano i nominativi raggruppati per comune). Per la selezione si procede a più stadi: in un primo stadio viene estratto, per ciascuno degli strati formati con la pre-stratificazione (per esempio la popolazione dei comuni sotto i 10.000 abitanti del Piemonte), un campione rappresentativo di tutti i comuni esistenti in quello strato. Poi, in ciascuno dei comuni estratti, viene estratto – ecco lo stadio finale dell’estrazione – un campione rappresentativo di tutti gli individui adulti residenti nel comune. Se l’archivio è organizzato anche per frazioni dell’unità comune, come nel caso dei registri elettorali, che sono organizzato anche per frazioni dell’unità comune, come nel caso dei registri elettorali, che sono organizzati per sezioni, conviene ricorrere, tra il primo stadio e lo stadio finale, ad un ulteriore e secondo stadio di estrazione, in cui viene estratto in ogni comune un campione di tutte le sezioni elettorali del comune. Finalmente, in uno stadio finale, che diventa il terzo stadio, da ogni sezione campionata viene estratto un campione di tutti gli elettori della sezione.

Gli archivi degli uffici elettorali comuni costituiscono, com’è evidente, la fonte ottimale per i campionamenti della popolazione adulta. Le fonti alternative – gli archivi anagrafici e le liste telefoniche - hanno l’inconveniente di catalogare unità-famiglie e non unità-individui (quindi costringono ad un specie di stadio semi-finale di estrazione per la scelta casuale di un individuo nella famiglia) e non offrono la comoda ed utile possibilità del campionamento di secondo stadio per sezioni.

A proposito del campionamento multistadio occorre ricordare che gli statistici mettono in guardia su certi limiti o rischi che la pratica di questo metodo comporta, perché costringe al campionamento a grappoli (o cluster), ossia gruppuscoli di unità che possono essere anche troppo omogenee tra loro, perciò sospette di riprodurre in misura insufficiente la varianza dell’universo. Queste avvertenze degli statistici sono senz’altro fondate, ma l’esperienza insegna che i vantaggi dell’adozione di questo metodo possono superare gli svantaggi. Per esempio se la selezione dei comuni viene guidata, mediante ordinamenti adatti delle liste di comuni dell’universo, in modo da tenere sotto controllo ulteriori parametri, oltre a quelli della pre-stratificazione geografica – come gli indici di ruralità, industrializzazione o l’altitudine o la fascia climatica, ecc. – la rappresentatività del campione non può che trarne giovamento. Questo tipo di vantaggi appare ancora più evidente a proposito dell’utilizzo delle sezioni elettorali come unità di campionamento di secondo stadio, specialmente nelle grandi città, dove – almeno quando il campione è grande o medio – le sezioni da campionare sono abbastanza numerose. Disponendo per l’estrazione casuale-sistematica le sezioni dell’universo secondo un buon ordine territoriale – spesso già la stessa numerazione delle sezioni obbedisce ad un tale ordine – si fa in modo che la copertura territoriale del campione di sezioni risulti certamente totale ed equilibrata, proprio come se fosse oggetto di pre-stratificazione anche quel carattere piuttosto importante che è, nelle aree urbane, la tipologia della zona (o quartiere) di residenza.

4. LA RILEVAZIONE

La rilevazione è la fase più importante e principale dell’esecuzione del sondaggio. E’ dedicata all’effettuazione dell’interviste ad opera di professionisti detti intervistatori. Viene distinta dalle altre fasi indicandola come quella in cui si svolge il lavoro sul campo (più spesso desso fieldwork), mentre le fasi che lo precedono a monte e la seguono a valle sono quelle del lavoro a tavolino (o, anche se meno usato, di desktop). Il lavoro dell’intervistatore è un po’ diverso da quello del più noto intervistatore giornalistico: è (anzi deve essere ) molto meno creativo (occorre attenersi totalmente, nella sostanza, nella forma, nell’ordine e nella completezza, alle domande del questionario), ma non meno competente (anche l’intervistatore dei sondaggi deve avere una sua precisa professionalità). Il documento fondamentale che guida l’attività di rilevazione è pertanto il questionario, che contiene il testo integrale di tutte le domande (e di tutte le relative risposte possibili, se ne è prevista una lista), che tutti gli intervistatori devono rivolgere a tutti gli intervistati, nella stessa forma e nello stesso ordine.

Diremo prima della tipologia delle domande che normalmente i questionari dei sondaggi su campioni della popolazione adulta ospitano e poi dell’attività d’intervista , con i mezzi e i metodi utilizzati dagli intervistatori dei sondaggi, da quelli tradizionali a quelli più moderni.

4.1 Il questionario

Non occorre spendere molte parole per ricordare che le domande dei sondaggi, specie quelli tra l’intera popolazione, proprio perché devono essere rivolte a persone di ogni livello socio-economico e di ogni tipologia culturale e psicologica, devono essere assolutamente semplici, chiare, comprensibili e facili sia nel contenuto, nel tipo di informazioni richieste e nei concetti espressi, che nella forma delle parole e delle espressioni usate. Si suole dire che il redattore di un questionario deve pensare alla cultura, alla psicologia e al linguaggio di un ragazzino di 12 anni. Questo esempio non è molto adatto e nasconde un po’ la varietà delle situazioni, anzitutto perché dobbiamo pur sempre rivolgerci ad adulti e non a ragazzini, poi il ragazzino di 12 anni non è proprio il migliore dei modelli minimali di istruzione, psicologia e li9nguaggio: l’erudizione, la freschezza di ingegno e la proprietà di linguaggio di certi adolescenti sono proverbiali.

C’è da ricordare anche che la chiarezza e la semplicità (e specialmente l’univocità e non ambiguità di significato) delle domande interessano anche l’interprete e il comune lettore dei risultati del sondaggio: se mancano tali requisiti è la stessa possibilità e chiarezza di interpretazione e lettura del sondaggio che ne viene impedita, o messa in crisi.

Per avere un’idea delle problematiche della formulazione del questionario dei sondaggi, conviene considerare le principali tipologie di domande, soprattutto quelle attinenti al contenuto, all’oggetto e, in definitiva, anche agli obiettivi di ricerca della domanda.

Domande sull’informazione. Esempi: “Lei sa come si chiama l’attuale Ministro degli Esteri?”; “Lei ha letto sui giornali o sentito parlare dalla radio o dalla televisione del rapimento di Silvia Melis?”.

“Che cos’è il botulismo: una filosofia orientale, una intossicazione alimentare o un malformazione congenita?”; “Quando si parla di telefoni cellulari, quali marche le vengono in mente?” Spesso le domande di informazione hanno principalmente una funzione strumentale, preliminare, cioè di filtro, all’apertura di una serie di domande di opinione su un determinato tema (ad esempio, il rapimento di Silvia Melis): si vuole rivolgere tali domande di opinione soltanto alle persone che risultano già pre-informate sull’argomento e così la domanda di informazione funge da filtro, perché permette di escludere dalle domande di opinione che seguono tutti gli intervistati che hanno risposto negativamente ad essa (coloro che non hanno mai letto né sentito parlare del rapimento della Melis non sono in grado di esprimere opinioni su quel caso). Spesso, inoltre, le domande di informazione servono per rispondere direttamente a veri e propri quesiti di ricerca, perché da esse ci si aspetta di avere la misura del grado di informazione degli italiani, per esempio sulla vita politica, di cui un indicatore significativo può essere la conoscenza del nome del mInistro degli Esteri in carica. 

Domande sull’opinione. Naturalmente, nei sondaggi detti di opinione sono le domande più importanti e più usate. Non si deve pensare soltanto alle classiche domande con cui si vuole rilevare l’adesione a questa o quella corrente di opinione, come per esempio: “Lei è favorevole o contrario a portare l’obbligo scolastico ai 18 anni?”; “Lei ritiene che l’imputato XY sia colpevole o innocente?”, ma anche alle domande, tutte molto usate nei sondaggi, con cui si vogliono rilevare delle preferenze “A Lei piace di più trascorrere le vacanze al mare o in montagna?”; “Quale, tra quelli che adesso le nominerò, è il cantante che preferisce?”), oppure, più in assoluto, dei gradimenti (“Per ciascuno dei personaggi politici che adesso le nominerò mi dica se le è molto, abbastanza, poco o niente affatto simpatico”).

Gli indicatori del trend della popolarità di presidenti o leader politici, che compaiono tanto spesso nei mass media, possono prevenire anche da semplici domande di notorietà (che appartengono alla famiglia di domande di informazione), come “Lei ha letto o sentito parlare negli ultimi tempi dell’uomo politico XY?”, ma normalmente sono basati su domande di gradimento come .”Lei approva o on approva ciò che ha detto o fatto negli ultimi tempi il Presidente del Consiglio?”. Dello stesso tipo sono le domande con le quali si va alla ricerca di valutazioni oppure di giudizi (“Lei, tutto sommato, dà un giudizio positivo o negativo di ciò che ha fatto il Governo in questo ultimo anno?”).

Assimileremmo alle domande di opinione, per ragioni di affinità, anche quelle – molto usate nei sondaggi di mercato e che, forse, meriterebbero di formare una importante categoria a se stante – che vogliono rilevare interessi (culturali o edonistici) oppure propensioni (ad aderire a determinate offerte di mercato): “Quale dei seguenti generi di film o telefilm lei è interessato a vedere alla TV nella prima serata?”, oppure: “Lei pensa che potrebbe trovare il tempo (almeno 4-6 ore alla settimana) per dedicarsi, gratuitamente, all’assistenza di malati gravi?”

Alla grande famiglia delle domande di opinione appartengono infine le domande con le quali si vuole configurare l’immagine di persone, enti o società, o cose, rilevando l’adesione o il rifiuto per tutta una serie di stereotipi o connotati di immagine. Il tipo di queste domande è il seguente: “Per ognuna delle frasi (o per ognuno degli aggettivi o attributi) che adesso le leggerò, mi dica se corrisponde molto, abbastanza, poco o se non corrisponde per niente all’idea che lei si è fatta di…” 

Domande su comportamenti o stati di fatto. Le informazioni sulla vita e i comportamenti degli intervistati vengono rilevate spesso, anche nei sondaggi cosiddetti di opinione, perché indicatrici del profilo socio-culturale della popolazione e in generale capaci di fornire spiegazioni dei fenomeni di opinione. Per esempio: “Lei va alla Messa, la domenica? Con quale frequenza?”; “Lei ascolta la radio? Ascolta anche i notiziari radiofonici o giornali radio?”. Spesso con questo tipo di domande vengono rilevati importanti fenomeni sociali e di mercato: “Negli ultimi 12 mesi ha trascorso qualche periodo di vacanza o turismo restando fuori dal comune in cui risiede per almeno quattro giorni (e quattro notti) consecutivi?”; “Lei possiede e usa personalmente un’autovettura? Quanti chilometri percorre, in un anno, con la sua automobile?”. Naturalmente sono domande di questo tipo gran parte di quelle che si fanno nei sondaggi di mercato, specialmente quelli detti di tracking, con i quali ci si propone di rilevare le tracce lasciate da determinate azioni di marketing e pubblicitarie: “Negli ultimi  7 giorni lei ha acquistato carne in scatola? Quale marca ha comperato l’ultima volta?”; “Lei ha visto o sentito negli ultimi tempi pubblicità per prodotti antisolari o abbronzanti? Di quale marca?”.

Alcune domande sullo status dell’intervistato sono presenti, per lo più alla fine del questionario, sotto il titolo “Dati di classificazione”, in tutti i sondaggi: “Qual è la sua età?”; “Qual è la sua professione?”; “E l’ultimo titolo di studio che ha conseguito?”, ecc., perché indispensabili per verificare la composizione del campione secondo i caratteri socio-demografici e confrontarla con quella dell’universo, per avere la prova della rappresentatività. Naturalmente sono necessarie anche per classificare secondo tali caratteri le risposte alle altre domande.

Domande sulle motivazioni. Sono le domande con le quali si cerca di avere lumi sui perché dei comportamenti e delle opinioni degli intervistati, ossia sulle motivazioni che ne stanno all’origine, almeno quelle che possono emergere al livello razionale. Si sa, infatti, che per far venire alla luce le motivazioni latenti, quelle appartenenti alla sfera dell’inconscio, non bastano i sondaggi quantitativi, di cui stiamo parlando, che sono basati su interviste e questionari rigidamente pre-definiti (si dice strutturati), ma occorrono le tecniche più sofisticate che si impiegano nelle ricerche qualitative, detto anche, appunto, motivazionali, che sono basate su interviste in profondità (in depth interview) e su colloqui di gruppo (focus group).

Data la loro funzione, la posizione delle domande di motivazione è obbligata: devono seguire una precedente domanda con la quale si è chiesto di riferire una opinione o un comportamento e della quale si vuole rappresentare la logica integrazione. Per esempio alla domanda di opinione: “Quale dei seguenti candidati alla carica di Presidente della Repubblica lei ritiene più meritevole  di essere eletto?”, può seguire la seguente domanda di motivazione, da rivolgere non appena l’intervistato ha indicato il proprio candidato preferito: “Per quali motivi lei considera XY (nome del candidato indicato) il più meritevole? Quali sono i suoi meriti principali? Quali caratteristiche ha che altri non hanno?”. Alla domanda di comportamento: “In quale località ha trascorso le sue vacanze?”, può seguire la seguente domanda di motivazione: “Per quali motivi ha scelto proprio AB (nome della località menzionata dall’intervistato) per le sue vacanze?”.

Naturalmente la motivazione richiesta può riguardare il versante negativo invece di quello positivo della preferenza o della scelta:”Perché non usa la marca X di shampoo?” (da rivolgersi agli intervistati che alle domande precedenti non hanno indicato la marca X di shampoo tra quelle da essi usate, ma l’hanno invece indicata come una di quelle da essi conosciute). A queste domande si fa ricorso quando, oltre (o invece che) le motivazioni, interessano le resistenze (al consumo di un prodotto, all’adesione ad una proposta o tesi politica, ecc.).

 Domande sulle previsioni o intenzioni. Agli intervistati dei sondaggi si usa spesso chiedere di fare una previsione su eventi futuri, rivolgendo domande di previsione, come: “Secondo lei, la situazione economica dell’Italia migliorerà o peggiorerà nel prossimo anno?”. Se la previsione riguarda un evento che dipende dalla volontà dell’intervistato (per esempio: “Lei acquisterà un’automobile entro i prossimi due anni?”), si tratta, più precisamente, di una domanda di intenzione (di acquisto, nel caso dell’esempio appena fatto). Molto note sono le domande sulle intenzioni di voto, che vengono rivolte nei sondaggi pre-elettorali: “Per quale dei partiti elencati su questo foglio (o che le nominerò adesso) lei intende votare nelle prossime elezioni?”.

Naturalmente occorre molta prudenza prima di accogliere i risultati delle domande di previsione o di intenzione direttamente come vere e proprie previsioni di mercato (o previsioni elettorali). Bisogna accogliere quei risultati soltanto per ciò che realmente e chiaramente sono: dichiarazioni di previsione o intenzione, tutte da verificare, non solo nella loro oggettiva fondatezza, ma anche nella sincerità con cui gli intervistati le esprimono in un sondaggio. Non è detto che tutte le intenzioni (o presunte tali) espresse dagli intervistati siano destinate ad essere poi confermate nella realtà, né, tanto meno, è detto che le previsioni fatte su eventi che non dipendono dalla volontà dell’intervistato siano destinate ad avverarsi, anche se a farle è la grande maggioranza degli intervistati.

Le domande di previsione o intenzione sono anche tra quelle alle quali è più difficile rispondere con serietà e sicurezza. Non a caso queste domande danno luogo spesso ad alte percentuali di "non so" o mancate risposte. La mancata risposta può significare, se la domanda è d'intenzione: "Non ho ancora deciso", oppure "Non voglio rispondere a questa domanda " (insomma: "Sono affari miei"). Oppure, se la domanda è di previsione su eventi indipendenti dalla propria volontà: "Non riesco a (non ho elementi per) fare questa previsione", o anche : "E chi può dirlo? E' impossibile prevedere questo".

Anche le domande su previsioni o intenzioni si prestano ad essere seguite utilmente, come quelle di opinione e di comportamento, da domande esplicative di motivazione: "Perché pensa che succederà questo? Da quali fatti, indizi o segnali deduce che potrebbe succedere che ...?", oppure: "Per quali motivi ha intenzione di votare per il candidato XY? Che cosa ha di speciale, che lo rende preferibile agli altri?".

Domande chiuse e aperte. Un'importante distinzione, che riguarda non la sostanza, ma la forma delle domande, è quella tra domande chiuse e domande aperte. Le domande chiuse sono quelle che ammettono esplicitamente una lista chiusa di risposte possibili, di cui l'intervistatore rende edotto l'intervistato già nel rivolgergli la domanda. Infatti le risposte possibili, tra le quali l'intervistato è invitato a scegliere la propria, o sono già contenute nel testo della domanda ("Lei è molto, abbastanza, poco, o niente affatto interessato alle notizie sul calcio?"), oppure - specie se si tratta di una lista lunga o contenente definizioni un po' complesse - sono stampate su un foglio (detto cartellino), che viene mostrato e fatto leggere all'intervistato (e/o che viene letto lentamente dall'intervistatore): " In questo foglio sono scritti i motivi che altri intervistati ci hanno detto per spiegare il perché della loro preferenza per una data marca di benzina. Li legga tutti e mi dica se ci sono, tra questi, dei motivi che valgono anche per lei": Oppure: "Le mostro ora l'elenco dei candidati alla carica di sindaco del suo comune. Quale di questi lei ritiene sia il più adatto ad esercitare i compiti di sindaco?".

Con le domande aperte, invece, non viene proposta all'intervistato alcuna lista chiusa di risposte possibili; nel questionario, inoltre, il testo della domanda viene annotato della seguente avvertenza per l'intervistatore: Non suggerire alcuna risposta! L'intervistato viene invitato a dare la sua risposta del tutto liberamente, trovando anche, lui stesso, le parole per esprimerla. L'intervistatore deve scrivere per esteso la risposta, fedelmente, cioè senza modificare né tralasciare alcuna delle parole usate dall'intervistato. Saranno, poi, gli addetti ai lavori di spoglio (detti, per questo, codificatori) a classificare tutte le risposte i gruppi omogenei (ossia gruppi di risposte equivalenti o molto simili nel significato), per poterne fare una statistica di sintesi significativa. Questa operazione di trattamento dei dati raccolti con le domande aperte viene detta, appunto, codificazione.

E’ evidente che una stessa domanda può essere formulata alternativamente nella forma aperta (“Quali marche di motociclette ricorda?”), oppure nella forma chiusa (“Quali delle marche di motociclette riportate in questa lista lei aveva già sentito nominare prima d’ora?”). Spesso, nei sondaggi sulla notorietà (di persone, di marche, ecc.) si usa rivolgere prima la domanda nella forma aperta e si ottengono così i valori di notorietà spontanea (unaided recall). Subito dopo, quando ormai l'intervistato ha esaurito le sue migliori risorse di memoria in proposito, gli si rivolge la domanda nella forma chiusa (detta anche precodificata), ottenendo così una ulteriore serie di valori, quelli della notorietà aiutata (aided recall). Naturalmente le percentuali della notorietà aiutata risulteranno sempre più elevate di quelle della notorietà spontanea (ovviamente le risposte spontanee vengono ritenute valide anche ai fini della statistica delle risposte aiutate, perché se un intervistato ha citato prima a memoria un nome, ciò significa che ricorda e conosce quel nome, anche se non ha ritenuto di dover poi confermare di riconoscerlo alla domanda aiutata). Ma quali sono i livelli di notorietà “più giusti”: quelli, anche troppo bassi, rilevati con la domanda aperta, oppure quelli, anche troppo alti, della domanda chiusa? Bisogna rispondere entrambi. I livelli della notorietà spontanea forniscono la dimensione restrittiva, ancorché sottostimata, della notorietà (chissà quanti altri hanno già sentito quel nome ma non sono riusciti a ricordarlo al momento dell'intervista). Questi livelli sono interessanti proprio per il carattere selettivo del fenomeno che misurano. Alcuni chiamano top of mind l'indice di notorietà spontanea più severo possibile, cioè quello che si ottiene isolando addirittura il primo nome che viene in mente agli intervistati alla domanda aperta. I livelli della notorietà aiutata, invece, forniscono la dimensione estensiva del fenomeno, ancorché sovrastimata (chissà quanti, leggendo o sentendo un nome, lo indicano come noto solo perché presumono di averlo già sentito, ma non ne sono affatto sicuri). Anche quei livelli sono interessanti, proprio perché esprimono il valore massimo, un tetto, come si suol dire, cioè la misura certamente non ancora superata della notorietà raggiunta in un dato momento. 

Domande con controindicazioni. Ci sono domande che gli esperti dei sondaggi non vorrebbero mai fare, o, se accettano di farle, non finiscono mai di mettere in guardia il lettore, implorandolo di accogliere i risultati con tutte le riserve del caso. Sono tali anzitutto quelle che potremo chiamare domande-tabù, perché si ha ragione di ritenere che almeno una parte degli intervistati ( e non importa se tanti o pochi), data la "delicatezza" del tema toccato, rifiutano di rispondere o rispondono con grave disagio psicologico e, talvolta non sinceramente, condizionati dal carattere indiscreto, se non addirittura indecente, della richiesta fatta o dei temi affrontati. In Italia sono considerate tali le domande sul reddito percepito (o sul patrimonio posseduto) e quelle sul partito preferito. Ovunque presentato problemi di questo tipo le domande, almeno quelle dirette su comportamenti e opinioni proprie dell'intervistato, in materia di sesso o di droga. Presso alcuni popoli presentato problemi anche le domande riguardanti l'etnia di appartenenza o la religione professata.

C'è poi un altro tipo di domande che gli esperti seri dei sondaggi rifiutano di fare, o almeno - se richiesti insistentemente di farle - propongono di modificarle almeno nella forma, perché è ragionevole presumere che possano risultare devianti e cioè tali da poter influenzare, con la loro forma o per i riferimenti che contengono, la risposta di una parte degli intervistati. Non importa se il potere deviante sia stato effettivamente provato: la sola ragionevolezza del sospetto che un tale potere possa averlo rende la domanda cattiva per un sondaggio. Uno dei difetti di questo tipo è dato dalla presenza nella domanda di espressioni retoriche o di sottintesi che possono presumere che l'aspettativa del redattore del questionario sia quella di ottenere una risposta piuttosto che un'altra, o che la "verità" sia quella su cui si pone una speciale enfasi. Per esempio: " E' vero che lei preferisce i prodotti nazionali ai prodotti esteri?". L'effetto presunto come deviante è prodotto da quell' " E' vero...?", che fa presumere come scontata, anzi doverosa, l'adozione del criterio nazionalistico o patriottico: l'intervistato incerto, specialmente quello timido, che non vorrebbe mai deludere il proprio interlocutore, trova comodo scegliere la risposta "patriottica", mentre, in assenza della forma deviante, si sarebbe forse rifugiato nel "non so".

Citiamo l'esempio di un caso ancora più rilevante, di una domanda effettivamente rivolta in un sondaggio, effettuato durante una delle passate crisi di governo: " Se il Presidente della Repubblica nominasse un Capo del Governo al di sopra delle parti, lei pensa che, per il bene del paese, si dovrebbe votare dopo aver fatto le riforme più urgenti, oppure si dovrebbe votare subito? ". Evidentemente oggetto del dibattito in corso al momento del sondaggio erano due tesi contrapposte: formare un governo di attesa con obiettivi limitati, oppure andare subito alle elezioni anticipate. Ma nel testo della domanda una delle due tesi (quella del governo d'attesa) appariva indorata da ben tre connotazioni i tipo "virtuoso": 1) un Capo del Governo al di sopra delle parti; 2) per il bene del Paese; 3) (che farà / che saprà fare) le riforme più urgenti. Invece l'altra tesi (quella delle elezioni anticipate subito), era liquidata con poche parole, senza alcuna connotazione virtuosa, salvo forse quella - peraltro appena percettibile - nascosta nell'avverbio subito, che agli amanti della sbrigatività efficiente potrebbe anche piacere. E' evidente che nella domanda c'è un grave squilibrio: manca quella par condicio, tra l'esposizione delle due tesi a confronto, che avrebbe potuto evitare che parte dei soliti indecisi (naturalmente i "già decisi", per l'uno o l'altro partito, non sono sospetti di lasciarsi influenzare dalle sfumature della domanda) scegliessero la tesi che sentivano come la meglio "argomentata", solo perché tale. E' facile convincere, anche lì per lì, degli indecisi: basta esporli all'indorature di una sola tesi, lasciandone sguarnita l'altra, proprio come ha fatto l'autore del nostro esempio (e come fa sempre il comiziante abile). Eppure i sostenitori della tesi delle elezioni anticipate avrebbero ben saputo proporre le due o tre "connotazioni virtuose", con cui indorare anche la loro, se quell'autore avesse avuto la pazienza di ascoltare anche la loro voce, com'era suo dovere, per evitare quel vizio che oggi viene detto del doppiopesismo (usare "due pesi e due misure"). Nei sondaggi va piuttosto usato quell'altro neologismo, non importa se altrettanto brutto, che è il cerchiobottismo (dare " un colpo al cerchio ed uno alla botte"). 

4.2 Le interviste 

Le interviste dei sondaggi possono essere fatte in diversi modi. I modi principali sono tre. Il più classico è quello dell'intervista personale: l'intervistatore e l'intervistato parlano tra loro trovandosi faccia a faccia nello stesso luogo. Il gergo più usato per definire questo modo è, appunto, face-to-face. Normalmente, per i sondaggi su campioni dell'intera popolazione selezionati dagli archivi elettorali o da altre liste con gli indirizzi di residenza delle persone, il luogo dell'intervista è l'abitazione dell'intervistato.

Poi c'è il modo dell'intervista telefonica: perlopiù è l'intervistatore che, stando nel proprio luogo di lavoro (per esempio la sede di un istituto specializzato), chiama per telefono la persona da intervistare, che normalmente nei sondaggi sulla popolazione, si trova a casa propria, e, sempre per telefono, la intervista.

Il terzo modo è quello dell'intervista autocompilata: la persona che si vuole intervistare riceve un questionario con l'invito a rispondere per iscritto, registrando lei stessa le risposte sul questionario. In questo modo si può fare a meno dell'opera dell'intervistatore: sia l'invio del questionario all'intervistato e sia la restituzione del medesimo dopo averlo compilato, possono avere luogo per posta (o anche, per chi ne dispone, per telefax). Diremo tra poco di un grosso inconveniente per il campionamento, che riguarda questo metodo di rilevazione, e lo rende inadatto per i sondaggi sulla popolazione.

Evitiamo per brevità di parlare di altri modernissimi metodi, che stanno prendendo piede, di fare l'intervista e che si valgono dei mezzi telematici, come quelli dell'intervista via Internet. Si tratta di metodi ancora molto lontani dall'essere adatti per i sondaggi estesi a campioni dell'intera popolazione, perché la diffusione del mezzo, a differenza del telefono, è ancora lontana dalla saturazione dell'universo, saturazione che è l'ovvia condizione per effettuare un campionamento scientifico.

Per poter parlare più propriamente dei vari metodi di intervista (o di rilevazione). Occorre tenere conto, oltre che dei vari modi di fare le interviste, anche di alcune varianti esistenti dei mezzi (ausiliari) per la raccolta e la trasmissione dei dati.

Anzitutto c'è il tradizionale questionario cartaceo, che sta in mano all'intervistatore, il quale legge da esso le domande e su di esso registra le risposte con una normale penna o matita. Il gergo internazionale per ricordare questo mezzo è, appunto, paper and pencil.

Ma sta prendendo piede - e nel campo delle interviste telefoniche ha già quasi completamente soppiantato il paper and pencil - il mezzo del computer attrezzato per i bisogni dell'intervista. L'avvento, anche in questo campo, dello strumento computer non sarebbe così importante se esso si limitasse a sostituire il questionario con il video (su cui compaiono le domande e le risposte da leggere per l'intervistatore9 e la penna con la tastiera (con cui l'intervistatore registra le risposte: in qualche modo usa anche o soltanto un mouse o una penna elettronica).

Il grande salto di qualità - dovuto a quella che possiamo chiamare la informatizzazione dell'intervistatore dei sondaggi - sta nel fatto che il computer assiste, possiamo dire in modo intelligente, ma soprattutto in modo servizievole, l'intervistatore nella conduzione dell'intervista, guidandolo, meglio di quanto fosse finora possibile con i più organizzati dei questionari cartacei, nella ricerca rapida dei giusti percorsi di intervista. In altre parole, il programma del computer guida i filtri e i passaggi tra le varie domande, che sono diversi a seconda delle risposte, senza che l'intervistatore debba porre attenzione al sistema di vincoli e rinvii, che in certi casi può essere molto complesso, tanto che con il questionario cartaceo può limitare notevolmente l'efficienza e l'operatività dell'intervistatore.

Gli acronimi internazionali escogitati per nominare i vari metodi per fare le interviste con il computer contengono proprio il riferimento alla funzione di assistenza (A.) che il computer svolge al servizio dell'intervistatore. Questi acronimi sono : C.A.T.I  e C.A.P.I., rispettivamente per il caso dell'intervista telefonica (T.) e quello dell'intervista personale (P.): Computer Assisted Telephone (Personal) Interviewing.  Nel caso delle interviste telefoniche il computer è una dotazione della postazione per l'intervistatore telefonico ed è collegato sia con il telefono che con una rete dei computer di tutte le postazioni, con la quale è possibile tenere conto, in tempo reale, dell'attività di campionamento svolta da tutti gli intervistatori, e coordinarla, così pure come si può anticipare l'elaborazione dei risultati parziali mentre sono ancora in corso le interviste. Nel caso invece delle interviste face-to-face, il computer è un comodo e leggere PC portatile (a valigetta), che l'intervistatore porta con sé.

Ma non basta: un altro grosso vantaggio viene conseguito con il metodo CAI (CATI o CAPI): la riduzione dei tempi di lavoro dovuta alla soppressione di una fase di non indifferente entità: quella del trasferimento dei dati del questionario cartaceo al supporto informatico, che è detta fase di registrazione (o data entry) e che al tempo delle schede perforate veniva chiamata perforazione (gli anziani la chiamano ancora così). I sistemi basati sui lettori ottici consentono anch'essi di sopprimere questa fase, ma stentano a prendere piede nel campo dei sondaggi per i problemi e i rallentamenti che impongono nelle fasi preparatorie, che di solito devono essere anch'esse svolte con la massima rapidità. Con il metodo CAI è l'intervistatore stesso che svolge la funzione di operatore del data entry. Accurati programmi del computer per il controllo automatico della validità almeno formale dei dati immessi (per esempio, verifica di coerenze necessarie tra informazioni diverse, ed eventuali correzione dei dati non corretti) consentono di rimediare, già durante l'intervista oppure subito dopo, a molti degli errori materiali che possono essere commessi dall'intervistatore, o almeno a segnalarne la presenza, in modo che possa aver luogo nel miglior modo la messa a punto definitiva (cleaning) dei dati raccolti per il sondaggio.

Un ultimo e non trascurabile vantaggio è dato, nel caso del metodo CAPI per le interviste face-to-face, dell'annullamento dei tempi postali di trasmissione, in andata dal centro e di ritorno dall'intervistatore periferico, dei questionari e del materiale accessorio.

A guadarci di più, con l'avvento dei metodi informatici al servizio delle interviste, è dunque la velocità di esecuzione dei sondaggi. Oggi molti sondaggi di opinione vengono fatti proprio e soltanto perché è possibile farli con il metodo telefonico CATI, che è il solo che può consentire di pubblicare, anche soltanto poche ore dopo l'inizio delle interviste, i risultati di sondaggi che, se pubblicati più tardi, perderebbero ogni interesse. Si pensi ai sondaggi che vengono fatti per conoscere le reazioni a caldo dell'opinione pubblica, per esempio in termini di popolarità e immagine del Presidente degli Stati Uniti, subito dopo un importante discorso di costui. Il valore e l'interesse del sondaggio sta proprio nell'immediatezza dell'esecuzione delle interviste e nella rapidità con cui è possibile pubblicare i risultati. 

4.3 Il campionamento sul campo 

Dicevamo, parlando del campionamento, che i momenti cruciali per la formazione del campione, sono due: il primo è quello in cui la selezione viene fatta a tavolino, selezionando le unità di campionamento, dopo adeguata pre-stratificazione ed in modo casuale, dagli archivi che contengono tutte le unità dell’universo. Se l’operatore – in questo caso l’organizzatore del sondaggio – ha la necessaria competenza, non può commettere errori in questo primo momento. Il momento in cui si può fallire, e non sempre per incompetenza, ma per l’oggettiva impossibilità di evitare l’errore, è il secondo, quello in cui l’operatore – in questo caso sul campo, l’operatore di selezione degli intervistati, effettuandone la fase finale.

Se l’intervistatore riuscisse ad intervistare tutte le persone designate a seguito della selezione iniziale fatta a tavolino, quindi certamente in modo casuale, non sussisterebbero dubbi sulla rappresentatività del campione intervistato, data l’identità di questo col campione selezionato. Ma non è facile conservare tale identità, perché accade normalmente che vi siano delle persone che rifiutano di farsi intervistare, che non sia possibile trovarne altre in casa in tempo utile per effettuare l’intervista. Accade insomma che si sia costretti, per l’impossibilità di effettuare l’intervista ad una parte del campione, a tollerare che questo rimanga incompleto, oppure – più spesso – che la parte mancante venga rimpiazzata mediante sostituzioni con persone diverse, provenienti da una selezione supplementare – per esempio di nominativi di riserva aggiunti fin dall’inizio per questa prevedibile funzione – in modo da poter almeno sperare in una sufficiente equivalenza tra le persone sostituite e quelle sostituenti (in termini di sesso, età e tipologia culturale e socio-professionale, ecc.) quindi nella conservazione del requisito della rappresentatività.

Purtroppo non è sempre vero che, se non sono state fatte sostituzioni, la parte di campione perduta costituisca a sua volta un campione equivalente, nel senso della rappresentatività, alla parte non perduta, o che, se sostituzioni sono state fatte, sussista un’effettiva equivalenza tra sostituti e sostituenti. E’ più facile che, essendo la impossibilità di intervista un evento non casuale (perché legato più a certe caratteristiche delle persone che ad altre), il campione effettivamente intervistato risulti deformato, rispetto a quello selezionato all’origine, in quanto quella proporzionalità all’universo rispetto a caratteri importanti che è il presupposto della rappresentatività, non è più verificata. Le deformazioni, in questo senso (che possono consistere per esempio nella presenza di troppo pochi anziani, che rifiutano più facilmente l’intervista, e di troppi giovani, oppure di troppe casalinghe, che è più facile trovare in casa e di troppo poche donne che lavorano) vengono dette bias.

Il problema di come rimediare alle cadute di intervista fa parte della grossa problematica con cui devono fare i conti tutti gli operatori dei sondaggi, viene ricordata come quella del trattamento delle non risposte. Sotto questo titolo viene incluso non solo il caso della caduta di intervista (non risposta totale), ma anche il caso della mancata risposta dell’intervistato a qualcuna delle domande (non risposta parziale): naturalmente quella che è in gioco è la possibilità di calcolare le giuste percentuali, cioè quelle capaci di esprimere fedelmente la realtà dell’universo.

Nella pratica l’obiettivo di conservare, nel campione effettivamente ottenuto (intervistato), la rappresentatività che era stata conferita senza pecche al campione disegnato (costruito e selezionato a tavolino), può essere centrato più o meno felicemente facendo leva su diversi fattori. Si deve puntare molto sulla perizia ed esperienza degli intervistatori utilizzati e sulla qualità dell'addestramento e delle istruzioni operative (dette briefing) loro impartite. E molto dipende anche dal metodo adottato per l'esecuzione delle interviste. Diremo ora qualcosa delle principali difficoltà che possono insidiare la rappresentatività del campione proprio in relazione al diverso metodo di intervista impiegato.

Cominciamo con il metodo dell'intervista per autocompilazione.

L'esperienza italiana mostra che se ci si limita ad inviare per posta i questionari ed a richiederne la restituzione, pure per posta, dopo averli compilati, ad un campione di tutta la popolazione adulta, la percentuale degli intervistati che restituisce il questionario compilato raggiunge a malapena il 10%. E poco male se quello scarso 10% ( che viene detto tasso di ritorno o redemption) potesse essere considerato un campione comunque rappresentativo dell'universo. Purtroppo la realtà è molto diversa. Tra i rispondenti ci sono  certamente troppi giovani, troppo poche persone che lavorano: è facile rendersi conto, a posteriori, di questi eccessi e di queste carenze, perchè si tratta di caratteri (l'età, il grado di istruzione, l'occupazione) noti dell'universo. E' ben legittimo il sospetto che molti caratteri, noti e soprattutto ignoti, come per esempio quelli attinenti alla tipologia psicologica, agli stili di vita, all'ambiente socio-culturale, possano risultare deformati altrettanto gravemente. Il fenomeno per cui a rispondere è una tipologia di persone diversa, come composizione statistica, dunque non rappresentativa, rispetto a quella di tutte le persone invitate a rispondere, dopo aver compilato il questionario, è detto il fenomeno della autoselezione del campione.

Nel caso di certe indagini il fenomeno è meno grave, la deformazione è tollerabile o correggibile. Per esempio, quando vengono invitati a rispondere campioni di automobilisti che hanno di recente acquistato un'automobile nuova per riferire sulle prestazioni della medesima, oppure campioni di neo-mamme per riferire sulle attenzioni dedicate ai loro bambini, o ancora studenti universitari per riferire sui loro studi e la loro vita di studenti, il tasso di ritorno dei questionari può salire molto, fino ad oltre il 40% ed i difetti della rappresentatività possono essere tollerati o anche corretti al meglio mediante la tecnica della ponderazione (correzione mediante forzatura sui valori dell'universo, delle proporzioni con cui sono presenti nel campione, per esempio, le varie fasce di età e di scolarità). Questa tollerabilità e questa possibilità di correzione si fondano, oltre che sull'alto - ma non altissimo- tasso di redemption, sul fatto che si tratta di collettività  comunque molto omogenee, per l'elevato livello socio-culturale e/o per il generalizzato di interesse ai temi oggetto dell'indagine, e quindi si può contare su una limitata varianza statistica dei fenomeni oggetto di studio (e si sa che è proprio tale varianza che rende più grave il rischio dell'errore di campionamento).

Ma in un caso come quello dell'intera popolazione adulta, ben più varia ed eterogenea della popolazione degli studenti e delle mamme, non possono essere ammesse tolleranze o correzioni mediante ponderazioni troppo massicce: il metodo del questionario autocompilato (e trasmesso per posta sia nell'andata che nel ritorno), deve essere considerato non adeguato e può essere impiegato soltanto parzialmente e in via sussidiaria rispetto all'attività di rilevazione principale, che deve essere svolta comunque da intervistatori. Si pensi per esempio ai casi in cui ci sono degli intervistatori che si recano a domicilio degli intervistatori per collocare i questionari, fornire le necessarie spiegazioni e l'assistenza per l'autocompilazione, e che poi, dopo alcuni giorni, ritornano per ritirare i questionari compilati, tutti. Un caso simile è quello dei censimenti dell'ISTAT. Occorre citare anche il caso di certe impegnative ricerche di mercato per campione in cui il solo motivo per il quale si fa ricorso al metodo dell'intervistatore, ma è quello dell'eccesso di lunghezza del questionario, peraltro molto facile da compilare. Un lungo colloquio tra intervistatore e intervistato dedicato alla banale ma estenuante compilazione del questionario risulterebbe insopportabilmente noioso (e la presenza dell'intervistatore palesemente inutile): è preferibile una tranquilla e paziente autocompilazione solitaria fatta dall'intervistato, specie se (come di solito avviene) a questo è stato promesso il compenso di un omaggio o il sorteggio di un grosso regalo.

Il metodo dell’autocompilazione adottato valendosi del mezzo postale elettronico o telematico (email), presenta – almeno per i sondaggi sull’intera popolazione – inconvenienti (soprattutto in termini di effetti auto-selettivi) non meno seri di quelli incontrati con il normale mezzo postale. Il segmento di popolazione raggiungibile con la posta elettronica è ancora molto selezionato secondo i caratteri anagrafici e culturali. Inoltre di solito occorre – se si vuole usare convenientemente il mezzo della posta elettronica – fare ricorso sistematico al metodo cosiddetto del panel (in questo caso il gergo usato è telepanel), che consiste nel prendere accordi con un campione di famiglie – e magari installare presso di esse, ad hoc, un computer collegato con Internet – e poi usare sempre – o comunque per un periodo di tempo convenientemente lungo – quello stesso campione per effettuare, per autocompilazione via email, molti sondaggi, tra cui – inevitabilmente – molti sempre sullo stesso argomento, allo scopo di rilevare variabili di trend. L’uso continuato del medesimo campione-panel per ripetere sondaggi di opinione può provocare effetti distorcenti sulla rappresentatività statistica del campione, e bisogna presumere con variabili coinvolte o facilmente coinvolgibili in questo tipo di effetti distorcenti per effetto della rilevazione (chiamati effetti-panel), proprio quelle che sono molto correlate con i temi dei sondaggi (come per esempio, la politica). In altre parole è legittimo almeno sospettare, per esempio, che i componenti di un campione-panel finiscano per diventare – con la ripetizione di un certo tipo di sondaggi politici – troppo informati, esperti, sensibilizzati, o comunque troppo o in modo anomalo condizionati nel rispondere, se confrontati con il resto della popolazione che sono chiamati a rappresentare, ma che non vive le loro stesse esperienze di intervista, e che quindi finiscano per perdere il requisito della rappresentatività campionaria che possedevano al momento del campionamento, proprio con riguardo alle variabili oggetto di intervista.

Per quanto riguarda i metodi dell’intervista face-to-face e dell’intervista telefonica, considerati alla luce del rischio di deformazione del campione, che si corre nella loro applicazione ai sondaggi più classici, quelli su campioni dell’intera popolazione adulta, accenniamo ai problemi principali.

Intervista face-to-face. Come si è già detto, per i sondaggi più impegnativi si fa ricorso, per il campionamento, alle liste elettorali. Qualche volta si preferisce utilizzare le liste anagrafiche. Spesso ci si accontenta del metodo delle quote. Dei possibili limiti di quest’ultimo, che riguardano proprio il momento della selezione finale degli intervistati, quella fatta, sul campo, dall’intervistatore, abbiamo già detto. Comunque, anche quando si usa il metodo delle quote (per esempio, quote di sesso, età, livello di scolarità e condizione professionale), i cosiddetti bias (errori di deformazione del campione) possono essere limitati imponendo all’intervistatore di cercare i propri intervistati in determinate zone del comune, fornendo per esempio degli indirizzi di partenza ed indicando i percorsi da seguire per individuare l’abitazione delle persone da intervistare. Per i metodi di questo tipo si usa il gergo random walk. Anche il divieto per l’intervistatore di scegliere per intervistarli i propri familiari, parenti ed amici, è un deterrente utile per tentare di migliorare la qualità dei campionamenti per quote.
Ma occupiamoci ora dei casi in cui, disponendo, per la selezione iniziale, quella da farsi a tavolino, di ottime liste dell’intera popolazione, non dobbiamo nutrire dubbi sulla rappresentatività del campione estratto casualmente da tali liste. Il rischio di adulterazione del campione dipende esclusivamente dalla caduta dell’intervista presso una parte dei nominativi estratti, e dall’eventuale sostituzione dei nominativi caduti. Dunque occorre anzitutto cercare di evitare il più possibile l’evento caduta (dell’intervista al nominativo estratto), con la migliore opera di persuasione, se si tratta di superare il rifiuto a rilasciare l’intervista, e con il ritorno sul posto per una o più nuove visite (o con nuove telefonate) in ore diverse, se si tratta di prendere contatto con una persona assente da casa. E comunque, per i casi in cui la caduta è inevitabile, il rimedio della sostituzione con un nominativo di riserva è senz’altro raccomandabile, specie se si usano accorgimenti per rendere massima la probabilità di equivalenza statistica tra sostituenti  e sostituiti. I più comuni accorgimenti di questo tipo sono di limitare la possibilità di sostituzione ai nominativi di riserva dello stesso sesso (se cade un maschio lo si deve sostituire con un altro maschio, e non con una femmina), e ai nominativi di età il più possibile vicina a quella del nominativo caduto (l’età dei nominativi è uno dei pochi dati disponibili dalle liste, per cui è possibile fornire agli intervistatori un’ampia riserva dei nominativi, con la regola di scegliere sempre quello che ha l’età più vicina a quella del nominativo caduto). Un altro modo di prefissare una gerarchia dei nominativi di riserva utilizzabili è quello di fare riferimento al criterio della maggior vicinanza dell’abitazione.

Quando la causa della caduta è l’avvenuto trasferimento del nominativo, il miglior rimedio è di fare la sostituzione con un adulto che vive nella famiglia subentrata nell’abitazione. In pratica si tende a rimediare, in questo modo, all’unico difetto che può riguardare lo stesso campionamento originale, quello fatto a tavolino, e cioè il mancato o imperfetto aggiornamento delle liste, perché si può presumere che le persone che recentemente sono entrate in abitazioni lasciate libere da persone che si sono trasferite, sono proprio il tipo di persone di cui le liste utilizzate per il campionamento (elettorali o anagrafiche) sono erroneamente carenti.

Comunque, qualunque sia il metodo di campionamento adottato (con liste o con quote), il modo migliore per assicurare la massima qualità del lavoro degli intervistatori, a cominciare dalla delicata opera di selezione finale degli intervistati, è quello di reclutare e addestrare molto bene gli intervistatori, evitando le persone che non hanno un’attitudine naturale a svolgere questa non facile attività, per la quale non tutti sono adatti. E poi occorre controllare massicciamente e costantemente il lavoro svolto da tutti gli intervistatori, sia sottoponendo ad esame accurato tutti i documenti di rilevazione (questionari compilati, liste di nominativi utilizzati, verbali delle operazioni effettuate), e sia, soprattutto, effettuando interviste di controllo, almeno telefoniche, alle persone che risultano intervistate.

Passiamo infine al metodo dell’intervista telefonica, oggi irrinunciabile in gran parte dei sondaggi d’opinione che si fanno su campioni dell’intera popolazione. Gli archivi utilizzati per il campionamento sono, naturalmente, le liste degli abbonati al telefono. Queste liste comprendono quasi tutto l’universo, perché quasi tutte le famiglie, oggi, possiedono il telefono (la percentuale degli abbonati ha raggiunto livelli di quasi-saturazione, oltre l’85%), tanto che la mancata inclusione dei non abbonati non deve essere più considerato un impedimento all’uso delle liste telefoniche per il campionamento dell’intera popolazione italiana (fino a pochi anni fa lo era e per popolazioni quali quella greca o quella slovena lo è ancora). Semmai, per voler essere rigorosi, occorre usare alcuni accorgimenti per fare in modo che vengano realizzate comunque le quote giuste (quelle corrispondenti all’universo della popolazione e non a quello degli abbonati al telefono) anche per i caratteri per i quali sussistono ancora differenze apprezzabili tra i due universi, come i caratteri geografici e l’età (nel Sud, nei piccoli centri e tra gli anziani la penetrazione del telefono non è ancora altissima). Approffittiamo di questo momento per descrivere meglio i metodi di campionamento che vengono adottati nei sistemi telefonici del tipo CATI.

Come abbiamo già accennato, le liste degli abbonati al telefono, almeno, e per ora, quelli riguardanti la telefonia fissa), sono in pratica liste di famiglie e non liste di individui. Se le usassimo per selezionare e intervistare proprio e soltanto le persone elencate, che sono i titolari degli abbonamenti, finiremmo per ottenere un campione dei capifamiglia (e neanche tanto buono come tale, perché non tutti i titolari di abbonamento sono capifamiglia), ma non, come vorremmo, un campione degli adulti, di ambo i sessi e di tutte le età. E’ necessario pertanto campionare, sì, famiglie scelte casualmente dalle liste degli abbonati al telefono, ma una volta stabilito il contatto con la famiglia selezionata, occorre scegliere a caso, e intervistare, un adulto tra quelli che compongono la famiglia. Per assicurare la massima casualità di quest’ultima scelta, e nel contempo tenere sotto controllo la rappresentatività del campione, sempre esposta ad insidie di ogni tipo (compresa quella dovuta alla non perfetta identità tra le unità-abbonato e le unità-famiglia), vengono usati metodi diversi. Accenniamo qui ad uno dei metodi più comunemente usati, che si vale anche delle possibilità offerte dalla moderna tecnologia dei sistemi di computer Cati collegati tra loro in rete, in modo da poter tenere sotto controllo contemporaneamente (dunque in tempo reale) l’attività di tutti gli intervistatori telefonici che operano per lo stesso sondaggio. L’intervistatore si fa indicare anzitutto il sesso e l’età di tutti i componenti adulti della famiglia con cui ha preso contatto, dopodiché la scelta, per quanto possibile casuale, della persona da intervistare, viene affidata ad un programma del computer. Questo tiene conto, appunto in tempo reale, del grado di copertura raggiunto, fino a quel momento, per opera di tutti gli intervistatori, per ognuna delle quote di campionamento programmate (di solito quelle secondo regione, ampiezza del comune, sesso, età e titolo di studio). In pratica il computer, che ha già registrato le caratteristiche delle persone intervistate fino a quel momento da tutti gli intervistatori, impone l’alt all’ulteriore scelta di persone appartenenti alle celle di pre-stratificazione che risultano già completate, e sceglie la persona da intervistare in una famiglia tenendo conto delle caratteristiche delle persone presenti nella famiglia rilevate in via preliminare dall’intervistatore, e usando il criterio casuale solo in presenza di un margine di opzionalità residuo.

Ma, nonostante questa possibilità di tenere sotto controllo la rappresentatività del campione, meglio che nel caso dei sondaggi effettuati con interviste face-to-face da intervistatori periferici che non possono lavorare, come i telefonici, in collegamento continuo tra di loro, le preoccupazioni per il rischio di bias (deformazioni per effetto dei fenomeni di autoselezione) non mancano neppure nel metodo telefonico CATI. Occorre puntare sulla gentilezza dell’intervistatore, accompagnata dalla giusta dose di insistenza, per ridurre il più possibile la percentuale dei rifiuti, che nel caso dei tentativi di intervista telefonici tendono ad essere anche più facili e sbrigativi che nel caso di quelli fatti dall’intervistatore face-to-face che arriva sotto la porta di casa dell’intervistando, ponendogli qualche problema di coscienza in più, prima di decidere il rifiuto definitivo. Occorre anche replicare in ore diverse i tentativi di contatto infruttuosi per l’assenza delle persone da casa o per aver trovato la linea occupata. Insomma, il ricorso alla sostituzione dei nominativi caduti con nominativi di riserva deve risultare contenuto entro limiti fisiologici.

Occorre ricordare qui anche alcune limitazioni, peraltro non gravi, che riguardano le possibilità di rilevazione con il modo di intervista telefonico, rispetto al modo faccia a faccia. Anzitutto non è consigliabile, almeno nei sondaggi sull’intera popolazione, superare un certo limite di durata dell’intervista telefonica: diciamo i 30 minuti, ma forse sarebbe meglio non superare neanche i 20 o 25. Nell’intervista telefonica, poi, non è possibile mostrare all’intervistato lunghe liste di risposte che questi deve leggere attentamente per intero prima di poter scegliere in modo meditato la propria risposta. Infine l’intervistatore non può stimare, con l’osservazione diretta di molti significativi indicatori di status (il livello dell’abitazione e dell’arredamento, il modo di vestire, la cura della persona, ecc.), la categoria socio-economica e classe di reddito dell’intervistato e della sua famiglia. Com’è evidente, questa stima, che gli intervistatori dei sondaggi face-to-face riescono a fare piuttosto bene, valendosi anche di una buona conoscenza delle realtà locali, è molto importante sia per il controllo della rappresentatività del campione che per le classificazioni analitiche dei risultati.

Pur entro questi limiti, il mezzo telefonico può consentire la realizzazione di sondaggi d’opinione di buona qualità, che comunque riescono a farsi apprezzare soprattutto per gli incomparabili vantaggi della rapidità e della puntualità, indispensabili per l’utilità del sondaggio e non conseguibili con altri mezzi.

Per non parlare del caso di altri tipi di sondaggi e di universi, ai quali il mezzo telefonico è ancora più congeniale. Ad esempio, per le ricerche cosiddette industriali (dette anche busines-to business), campioni di aziende, o di operatori economici, e in particolare di imprenditori, professionisti, dirigenti e quadri, possono essere chiamati telefonicamente (magari verso il telefono cellulare) e con tale mezzo intervistati mentre sono nel loro posto di lavoro, e quindi nel luogo e nei momenti più adatti per parlare di argomenti concernenti la loro attività, che sono proprio quelli su cui vertono di solito le ricerche di questo tipo. L’intervista telefonica, in questi casi, può raggiungere livelli di efficienza e concentrazione addirittura superiori a quelli dell’intervista face-to-face, e porre anche minori problemi di ricerca e contatto con la persona da intervistare.  Dato il livello degli intevistati, e la loro competenza specifica sui temi trattati, anche il bisogno di ricorrere a liste esemplicative di risposte, o all’esibizione di figure o documenti (peraltro sempre possibile grazie alla disponibilità ormai generalizzata del telefax) è molto meno sentito che nei sondaggi tra i consumatori.

4.4 La legge sulla “privacy” 

A partire dalla primavera 1997 è entrata in vigore una nuova legge sulla tutela del diritto del cittadino di proteggere la riservatezza delle informazioni che lo riguardano personalmente e privatamente. Questa nuova legge (la N. 675 del 1996), nota come la “legge sulla privacy”, non poteva non riguardare anche le informazioni rilevate mediante interviste nei sondaggi d’opinione e di mercato.

E’ pur vero che la riservatezza costituisce da sempre un criterio essenziale nel trattamento del patrimonio di informazioni raccolto per le ricerche statistiche: essa è garantita, per definizione, dal naturale uso a cui sono destinate le informazioni raccolte con i sondaggi, che è quello – chiaramente esclusivo – di produrre dati in forma statistica (aventi solo riferimenti collettivi e mai individuali) e comunque anonimi (i risultati dei sondaggi non comprendono i nomi degli intervistati).

Ma la nuova legge, che si preoccupa di evitare qualunque rischio di abuso, giustamente pretende che chiunque faccia sondaggi, oggi, non si limiti a chiedere e fare l’intervista e alla fine ringraziare e salutare l’intervistato. E’ obbligato a fare qualcosa di più: deve cioè non soltanto informare preventivamente l’intervistato sugli scopi del sondaggio, della destinazione esclusiva dei dati all’uso statistico ed anonimo (questo è stato fatto sempre, prima di cominciare l’intervista), ma deve anche precisare che ciò viene garantito sotto la personale responsabilità dell’autore del sondaggio, ed aggiungere che, ai sensi della nuova legge, ogni intervistato ha il diritto di rifiutarsi, totalmente o parzialmente, di rispondere alle varie domande, conservando altresì quello di esigere, anche in seguito, la cancellazione delle informazioni da lui fornite e di prendere conoscenza di qualunque uso venga fatto di esse. Inoltre, dopo aver fornito queste informazioni, l’intervistatore deve ricevere il consenso esplicito dell’intervistando al rilascio dell’intervista, rendendosi testimone responsabile mediante una dichiarazione scritta da lui firmata (è ancora controverso se sia sufficiente la dichiarazione scritta dell’intervistatore, o se, almeno nelle interviste face-to-face, ci voglia proprio la dichiarazione di consenso firmata direttamente dall’intervistato). Gli esecutori dei sondaggi, che devono essere iscritti in un Albo tenuto presso l’ufficio del “garante” della privacy, devono anche, per i sondaggi nei quali vengono richieste agli intervistati informazioni su temi “delicati” (cioè dati detti sensibili, in quanto riguardanti la salute, le abitudini sessuali, l’appartenenza a gruppi politici, religiosi, ecc., per estensione forse eccessiva anche le opinioni politiche), darne informazione specifica al Garante.

La necessità di osservare queste nuove norme – peraltro di fondamento indiscutibile sul piano dei valori di etica civile a cui sono ispirate – non è priva di conseguenze pratiche nell’esecuzione dei sondaggi, in particolare rappresenta una difficoltà ed un ostacolo in più – come se non ce ne fossero già abbastanza – proprio nella fase finale del campionamento, da effettuarsi sul campo, e che, come abbiamo già visto, è quella più delicata e decisiva per il corretto conseguimento della rappresentatività del campione. La necessità di aggiungere, nel delicato momento in cui sta per maturare il non sempre pronto consenso dell’intervistando all’intervista, l’adempimento voluto dalla legge sulla privacy, che non può non avere un aspro sapore burocratico, capace di suscitare sospetti ed effetti vari “di rigetto”, costituisce un freno all’obiettivo, che abbiamo descritto come così importante e difficile da conseguire, di minimizzare la percentuale dei casi di rifiuto e di sostituzione dell’intervistato. Dunque un impegno non indifferente per gli esecutori dei sondaggi, che devono cercare di renderne minimi e comunque sopportabili i danni per la qualità della loro opera.

 

 

5. L'ELABORAZIONE 

La fase in cui avviene l'elaborazione dei dati è certamente la più interessante del sondaggio, perché è quella in cui i tanto attesi risultati prendono corpo e vengono alla luce.

Dal punto di vista funzionale la elaborazione è la fase finale del sondaggio, in cui quelle informazioni che sono le risposte degli intervistati raccolte dagli intervistatori, vengono trasformate prima in dati aventi la forma adatta per essere trattati con strumenti informatici e con metodi statistici. I dati vengono poi trasformati in risultati, aventi la forma statistica. A loro volta i risultati (statistici) sono destinati ad essere letti , studiati, interpretati da qualcuno capace di trasmetterli e di presentarli, nella loro giusta luce, agli interessati al loro utilizzo (e quindi di farli diventare dati di lavoro, da utilizzare per fini di marketing commerciale o politico) e/o da qualcuno capace di comunicarli al pubblico, pubblicandoli, divulgandoli per mezzo dei mass media (e quindi di farli diventare notizie).

Dal punto di vista tecnico-produttivo, la fase di elaborazione si svolge nel seguente modo. I dati raccolti con le interviste devono anzitutto essere immessi nel computer o in supporti accessori del medesimo (ad esempio, floppy disk). Un tempo, quando si usavano le schede perforate, si diceva, appunto, dati perforati, invece che immessi. Oggi la fase di immissione viene anche detta data entry. Abbiamo visto che, nei casi in cui l’intervistatore ha operato con mezzi informatici (interviste telefoniche CATI, oppure interviste face-to-face CAPI), la fase di immissione dei dati non è n4ppure una fase autonoma, con tempi propri e che debba essere affidata ad operatori specializzati, perché i dati sono già stati immessi dall’intervistatore stesso, nel momento stesso in cui li ha raccolti. Il primo trattamento che subiscono i dati immessi è quello che si propone di controllarne la validità, almeno dal punto di vista formale (per esempio, di verificare la sussistenza di una coerenza logica tra informazioni diverse che devono essere co-presenti, oppure che, al contrario, non devono essere co-presenti perché sarebbero incompatibili tra loro). Eventuali errori o incoerenze, dopo essere stati individuati e segnalati da un controllore o da un programma del computer, devono essere eliminati, dall’uno o dall’altro. La fase di lavoro dedicata a questi controlli e correzioni, in pratica alla messa a punto (messa in bella, pulizia) dei dati raccolti in forma grezza, è chiamata fase di cleaning. I lavori di cleaning, in presenza di questionari che hanno la forma tradizionale cartacea, iniziano con un editino, cioè con un esame critico effettuato da un esperto controllore, che può fare, a mano, i propri interventi correttivi e comunque può esprimere giudizi anche definitivi sulla qualità e l’accettabilità dell’intervista. Ma le operazioni di cleaning più complete e sicure vengono fatte con l’ausilio necessario del computer. I programmi di cleaning operano in parte automaticamente (nei sistemi CATI e CAPI già a partire dal momento dell’intervista, per cui molti dei dati vengono immessi già puliti o gli interventi correttivi necessari vengono segnalati dal computer all’intervistatore, in modo che costui possa provvedere al supplemento di rilevazione necessario per la correzione) ed in parte hanno ancora bisogno dell’intervento umano, perché la decisione sulla diagnosi e/o sulla terapia dell’errore segnalato dall’occhio infallibile del computer non può essere affidata ad un programma predisposto in anticipo, ma c’è bisogno dell’esame caso per caso.

Quando siamo in presenza di domande aperte, prima ancora dell’immissione definitiva dei dati e della conclusione delle operazioni di cleaning è necessario inserire anche la fase di codificazione (o di codifica) delle risposte date in forma libera dagli intervistati alle domande che sono, appunto, aperte. Dopo aver preso visione dello spoglio preliminare di un campione delle risposte, esperti codificatori sono in grado di redigere un codice, cioè una lista dei più frequenti tipi di risposte, dopodiché assegnando la risposta data da ciascun intervistato alla voce di codice che ne interpreta meglio il significato.

Dopo la codifica, il data entry e il cleaning, i dati sono pronti, belli e puliti, per le fasi di elaborazione che seguiranno. Sono contenuti in modo ben organizzato entro archivi o file (data base), in cui sono catalogati e riconoscibili mediante documenti chiamati codice o tracciato-scheda, che contengono i testi completi delle domande e delle risposte, nonché i numeri dei record (o schede), cioè delle unità di contenitori e delle posizioni (colonne e codici), cioè delle unità di domande e risposte.

Il trattamento dei dati è fatto prevalentemente con metodi statistici. La produzione classica e irrinunciabile è quella detta tabulazione e il prodotto più normale è dato dalle tavole (tavole statistiche o tabulati). La tavola più semplice contiene una sola distribuzione di frequenza delle risposte date ad una domanda da tutti gli intervistati, disposte in una sola colonna di dati, che è intitolata, appunto, Totale: le risposte sono scritte, una per ogni riga, sulla fiancata e nella colonna è riportato il numero (assoluto) di casi (di intervistati) che hanno dato a ciascuna risposta, e/o la percentuale corrispondente (calcolata sul totale dei casi). Il fatto che si tratti del totale degli intervistati qualifica questa colonna di risultati come la più importante, questi risultati vengono detti i globali o anche i marginali, per distinguerli da quelli che si riferiscono a sottogruppi di intervistati, classificati secondo i vari caratteri interessanti per l’analisi disgregata dei risultati (secondo sesso, età, area geografica, ecc.) e che vengono detti risultati analitici (tavole analitiche o incroci o cross section).

La forma più normale in cui vengono espressi i risultati è quella delle percentuali, calcolate sul totale degli intervistati, o su un qualunque sottogruppo di essi. Le percentuali più normalmente usate sono quelle considerate di penetrazione, perché, indicando quante persone hanno dato una certa risposta, in rapporto al totale a cui è stata rivolta la domanda, danno una misura della penetrazione, appunto, del fenomeno.

Un diverso significato hanno le percentuali cosiddette di composizione: sono quelle calcolate ponendo uguale a 100 non il totale degli intervistati ( o di un sottogruppo di questo, come quello degli uomini o delle donne, o dei giovani), ma il totale di coloro che hanno dato una certa risposta, per indicare quanti di questi, in percentuale, sono uomini, quanti sono donne, quanti sono giovani: per descrivere, insomma, la composizione della parte di pubblico coinvolta in un dato fenomeno. Questa composizione è detta anche profilo (ad esempio, profilo sociodemografico) e il sottogruppo di persone coinvolte nel fenomeno (ad esempio consumatori di un dato prodotto o aderenti ad una data corrente di opinione) è detto spesso target, perché rappresenta o potrebbe rappresentare il bersaglio di una nostra ipotetica azione di marketing, o, più in generale, l’oggetto principale o occasionale del nostro interesse di ricerca.

Una terza forma abbastanza frequente di espressione dei risultati dei sondaggi è quella delle stime (in valori assoluti), che sono il risultato di una estrapolazione all’universo della percentuale rilevata nel campione. In realtà già il significato di quest’ultima, in particolare della percentuale di penetrazione, è quella di una stima (della misura della diffusione nel fenomeno nell’universo), e anzi è quello che corrisponde meglio al metodo di ricerca, ma tant’è: quando si parla di stime si pensa subito ai valori assoluti estrapolati all’universo e non alle percentuali. Le stime, nei sondaggi su campioni dell’intera popolazione vengono espresse di solito nell’unità di misura delle migliaia di individui, se si tratta di un campione abbastanza grande (diciamo di almeno 4-5 migliaia di casi), altrimenti (specie con campioni di solo un migliaio di casi o poco di più), è più saggio usare l’unità di misura dei milioni di individui.

Altri indicatori che servono per capire meglio una variabile sono la mediana, gli altri indici di posizione (terzili, quartini, ecc.) e la deviazione standard, che dà la misura più usata della variabilità.

Per esprimere giudizi sulla validità (precisione, attendibilità o accettabilità) delle stime vengono usati appositi test statistici detti di significatività o di verifica delle ipotesi: oltre a quello dell’errore standard, già citato parlando del campionamento, uno dei test più usati è il test che verifica la significatività delle differenze rilevate tra due campioni. Famosi sono anche i test del chi quadrato e del t di Student, per giudicare della significatività della relazione esistente tra variabili diverse.

Si fa ricorso spesso anche ad altri algoritmi statistici per approfondire la conoscenza delle relazioni esistenti tra le variabili, per illustrane l’entità, la forma, il segno: ad esempio si usano gli indici di correlazione e i calcoli di regressione, che rivelano le funzioni o curve che descrivono il modo di variare di una variabile presenta come dipendente, al variare di un’altra presunta come indipendente.

I sondaggi sono infine uno dei campi della ricerca in cui vengono utilizzati con maggior profitto quei moderni metodi statistici che vengono ricordati sotto il titolo di analisi multivariata (Factor Analysis, Cluster Analysis, Discriminant Analysis). Si tratta  di metodi di calcolo che sono stati resi possibili dallo sviluppo dei calcolatori elettronici, perché solo questi consentono di effettuare in tempi brevissimi le migliaia di confronti e calcoli necessari per osservare il comportamento simultaneo, in migliaia di individui, di numerose variabili diverse, per trarne le migliori aggregazioni e sintesi. Aggregazioni e sintesi che, proprio perché fondate sulle multiforme varietà e interazione delle variabili in gioco, sono spesso rivelatrici dell’esistenza nascosta di variabili più complesse, ma più autentiche, di quelle, elementari, che sono osservabili direttamente. Queste nuove super-variabili configurano in pratica dei fattori latenti, che possono essere all’origine dei comportamenti o delle opinioni degli intervistati (quelli descritti dalle variabili prese in considerazione) e possono suggerire l’ipotesi di interpretazione della logica dio aggregazione. L’occhio e la mente del ricercatore non riuscirebbero mai a percepire, da soli, tale logica, prima dell’individuazione di tali fattori fatta dal computer (Factor Analysis), né a raggruppare così bene gli intervistati, in gruppi di individui così somiglianti tra loro proprio in funzione delle loro risposte e alla logica dei fattori che le collega, come può fare un computer (Cluster Analysis), offrendo alla ricerca un vero e proprio nuovo ed interessante criterio (carattere) di segmentazione, da affiancare a quelli tradizionali (per esempio, i socio-demografici) per una migliore analisi dei risultati del sondaggio.

Per la comunicazione dei risultati del sondaggio un mezzo di grande importanza ed utilità è dato dai grafici. Ad esempio, tutti i quotidiani o news-magazine in cui compaiono articoli e servizi che trattano di sondaggi, i grafici e i loro istogrammi e le loro curve o torte, che illustrano i risultati principali, sono un ingrediente irrinunciabile, più ancora delle stesse tavole statistiche (che il giornalista spesso teme possano scoraggiare il lettore poco familiare con numeri e percentuali) e fanno direttamente concorrenza, contendendosi lo spazio con esse, alle foto dei personaggi e degli eventi di cui tratta l’articolo e il relativo sondaggio.

 

6. IL MONDO DEI SONDAGGI 

I primi sondaggi d'opinione fatti a regola d'arte, cioè con il metodo (scientifico) del campione rappresentativo, furono quelli realizzati nei primi anni Trenta, negli Stati Uniti; ad opera di George Gallup ed altri pionieri come Archibald Crossley ed Elmo Roper. George Gallup (1901-1984) viene ricordato come il padre fondatore dei sondaggi, tanto che nei primi anni, per distinguere il metodo dei sondaggi correttamente scientifici da altri metodi non garantiti come tali, si parò unicamente di metodo Gallup. Luigi Einaudi scrisse su Risorgimento Liberale l'11 novembre 1945: "...esiste un solo metodo che abbia fatto le sue prove ed abbia dimostrato di saper compiere assaggi precisi delle tendenze dell'opinione pubblica: è il metodo americano, noto come metodo Gallup...". Sia negli Stati Uniti che in iNghilterra ed in Francia sorsero, fin dagli anni Trenta, i primi istituti demoscopici specializzati proprio nella realizzazione dei sondaggi. In Italia la prima organizzazione del genere a vedere la luce fu l'Istituto Doxa, fondato nel gennaio 1946 a Milano da Pierpaolo Luzzatto Fegiz (1900-1989), che vi si era preparato fin dagli anni della guerra, ispirandosi ai modelli dei pionieri americani e confidando in un prossimo ritorno della democrazia in Italia, condizione ovviamente necessaria per l'affermarsi dei sondaggi. Tanto è vero che in Russia e negli altri paesi dell'Est europei si è cominciato (timidamente) a fare dei sondaggi d'opinione soltanto dopo il crollo del Muro di Berlino, negli anni Novanta.

In oltre sessant'anni i sondaggi d'opinione e di mercato hanno avuto un graduale ma imponente sviluppo, tanto che i praticanti di questa nuova "arte" sono diventati, in tutto il mondo, una importante ed apprezzata categoria professionale. Oggi questi professionisti li troviamo raggruppati in associazioni professionali molto attive, sia nazionali che internazionali. Tra quelle internazionali la maggiore e la più prestigiosa è l'ESOMAR ( European Society for Opinion and Marketing Research), fondata nel 1947, alla quale sono iscritti nel 1998 oltre 1200 membri collettivi (perlopiù istituti demoscopici), di cui un'ottantina italiani, ed oltre 3300 membri individuali, di cui oltre 200 italiani e molti provenienti da paesi extra-europei. I membri dell'ESOMAR sottoscrivono e si impegnano a rispettare, nell'esercizio della loro attività, un severo codice deontologico (intitolato "ICC/ESOMAR International Code of Marketing and Social Research Practice"), che prescrive le norme di comportamento da seguire per l'esecuzione corretta, in tutti i loro momenti e fasi, delle ricerche d'opinione e di mercato.

Le associazioni nazionali sono: l'AISM (Associazione Italiana per gli Studi di Marketing) e l'ASSIRM (Associazione tra Istituti di Ricerche di Mercato, Sondaggi d'Opinione, Ricerca Sociale): Quest'ultima raggruppa le maggiori organizzazioni italiane del settore (una ventina) ed impone ai soci la sottoscrizione di un "Codice di Autodisciplina" che fa proprie tutte le norme del Codice ESOMAR e le sviluppa ulteriormente. Nei contratti con i loro committenti, gli istituti soci dell'ASSIRM sono tenuti a richiamare i codici ESOMAR eASSIMR, impegnandosi anche formalmente ad osservarli. In questi odici, ad essere regolamentati non sono soltanto i comportamenti e le procedure che assicurano il carattere scientifico dei campionamenti e la professionalità, la trasparenza e la completezza con cui devono essere fatte le interviste ed elaborati, trasmessi e pubblicati i risultati dei sondaggi, ma anche quelli che assicurano la correttezza, la lealtà e le responsabilità non solo giuridiche ma anche etico-sociali a cui gli aderenti sono tenuti nei confronti delle persone da loro intervistate, degli altri istituti loro concorrenti commerciali, oltre che, naturalmente, dei clienti che li incaricano delle ricerche.

Tanto per avere un'idea dell'attenzione dedicata alla disciplina dei vari aspetti del difficile mestiere di "intervistare la gente per trarne informazioni veritiere e indicazioni che non possono risultare ingannevoli o pregiudizievoli per alcuno", si legga la seguente lista delle appendici allegate al Codice deontologico dell'ESOMAR, per disciplinare alcune attività e materie specifiche: (Guidelines / guide  to / for / on): Opinion Polls - Resaching Agrrement on a Marketing Research Project - Distinguishing Telephone Research for Telemarketing - Selecting a Marketing Research Agency - Mystery Shopping - Simulated Sales Testing - The Harmonisation of Fieldwork Standards - Tape and Video Recording of Interview and Group Discussions - Pharmaceutical Marketing Research - Arbitration Service.

Non sono mancati interventi del potere pubblico, sotto la spinta della preoccupazione che i sondaggi d'opinione, proprio perché ormai hanno rivelato la loro reale capacità di manifestare la pubblica opinione, potessero essere strumentalizzati per fini non corretti. In alcuni Paesi (nel 1993, per la prima volta, anche in Italia) sono state emanate leggi che limitano il diritto di pubblicazione di sondaggi sulle intenzioni di voto degli elettori nell'immediata vigilia delle consultazioni elettorali, nel timore che gli elettori possano venire influenzati slealmente nelle loro decisioni di voto da sondaggi non sufficientemente controllati. Inoltre è nata - tanto per restare nel nostro Paese - una "Autorità" che si propone il lodevole (ma non facile da conseguire) scopo di assicurare alcune fondamentali garanzie per la libertà ed il corretto uso dei mezzi di comunicazione di massa. Questa autorità, nata nel 1997,si chiama Autorità per le Garanzie nelle Comunicazioni e non poteva non occuparsi anche dei sondaggi. Oggi - 2003- tutti coloro che pubblicano sondaggi (mass media ed organizzazioni di ricerca loro fornitrici di sondaggi) devono osservare determinate regole che si propongono di assicurare una sufficiente "trasparenza" ai sondaggi. In particolare l'Autorità prescrive che la pubblicazione di un sondaggio venga accompagnata da una "Nota informativa" che dica almeno chi è il committente del sondaggio, chi ne è l'esecutore, quante interviste sono state atte, con quale metodo, su un campione rappresentativo di quale universo, campionato in quale modo e qual è il testo preciso delle domande rivolte. Oggi le "note informative", in calce ai sondaggi che compaiono sui giornali, non mancano. Magari sono stampate in carattere microscopico e talvolta sono un po' carenti di notizie, rispetto alle prescrizioni dell'Autorità Garante, o sono compilate in modo ermetico, poco comprensibile per i non addetti ai lavori (e talvolta persino per gli addetti). L'Autorità, però, non manca di esigere dagli esecutori dei sondaggi, oltre alla "Nota informativa", anche un "Documento completo", con i massimi dettagli su metodi e risultati, al quale gli interessati possano facilmente accedere al sito Internet messo a disposizione a tale scopo dall'Autorità stessa (www.agcom.it).

Il mondo dei sondaggi è dunque diventato un cosmo molto variegato, alle prese con ardue problematiche, ma caratterizzato ovunque da una profonda consapevolezza delle proprie difficoltà come delle proprie responsabilità, nonché da grande serietà nell'affrontare le prime e nell'assumersi le seconde. Naturalmente non mancano le voci critiche. Spesso affiora lo scetticismo se non proprio l'aperto discredito o il sarcasmo, con cui da taluni vengono additati i sondaggi, specie quelli d'opinione, soprattutto da coloro a cui "non conviene", per interesse o motivi politici, riconoscerne i risultati come veritieri.

Ma sono sotto gli occhi di tutti i segni sempre più evidenti di una realtà abbastanza nuova e confortante: nonostante lo scetticismo e il discredito che circondano spesso, immeritatamente, i sondaggi, nonostante anche gli innegabili limiti e difetti che tutti i sondaggi possono avere (e sui quali i ricercatori seri non mancano mai di mettere in guardia i propri lettori), nonostante, infine, i casi (che pur si verificano, anche se molto raramente, per fortuna) di sondaggi menzogneri e truffaldini, nonostante tutto ciò le realtà poste in luce dai sondaggi, quali portatori della voce del popolo (dei consumatori, degli elettori tutti) non mancano di attecchire, di farsi riconoscere, bene o male, prima o poi, un po' da tutti. E un po' dovunque, non soltanto nei paesi dell'Occidente di antica democrazia in cui i sondaggi sono nati.

Forse ciò significa che oggi il "Potere" (quello di muovere le decisioni più di fondo ed essenziali per le collettività) sta finalmente discendendo, grazie ai sondaggi, dal vertice dei "potenti" di sempre verso la base del suo detentore più legittimo, che è il popolo, detto sovrano?

Osservando quanto può fare, oggi, l'opinione pubblica, quella testimoniata nient'altro che dai sondaggi, nell'influenzare "l'ultima parola", quella più decisiva per il destino persino delle grandi monarchie in crisi e dei grandi presidenti sull'orlo dell'impeachment, verrebbe proprio da rispondere affermativamente a questa domanda. L'impressione è che oggi perfino ai tiranni, agli aspiranti dittatori e ai molti demagoghi di turno, che sperano di imporsi approfittando della scarsa educazione democratica dei loro popoli, corra l'obbligo, prima di poter porre in atto il loro golpe o i loro tentativi di plagio o di progettare la loro "fabbrica del consenso", di sentire il polso dell'opinione pubblica. E con quale mezzo, se non con lo strumento dei sondaggi, che è stato mai scoperto da tutti, anche nell'Oriente, anche nel Terzo o Quarto mondo?  Non sono più sufficienti, per fiutare "il vento che tira", né la genialità del politico o dell'imprenditore, né i segnali provenienti dai listini delle Borse, dalle audience dei mass media scatenate dai grandi eventi e neanche quelli provenienti dai risultati delle elezioni o dei referendum, perché, anche se influenti, sono sempre segnali troppo indiretti, troppo limitati, troppo poco espliciti. Per avere risposte chiare, esplicite, pertinenti dall'opinione pubblica ai quesiti più di fondo e specifici non c'è che il sondaggio, quello serio, quello autorevole, fatto a regola d'arte, quello scientifico. Gli stessi opinionisti, politolighi e pollster di chiara fama, che sembrano dotati del raro talento di interpretare lucidamente l'opinione pubblica, usano più che mai, come materia prima irrinunciabile, i risultati dei sondaggi che loro, proprio per l'esperienza acquisita nel trattare tale materia, sanno leggere meglio di chiunque altro.

 

BIBLIOGRAFIA

S. RINAURO (2002), Storia del sondaggio d'opinione in Italia 1936-1994. Dal lungo rifiuto alla repubblica dei sondaggi. Istituto veneto di Scienze, Lettere ed Arti Editore.