CAMPIONE, teoria del

Enciclopedia Italiana - III Appendice (1961)

CAMPIONE, teoria del

Carmelo D'AGATA

Col termine c., nella moderna statistica, si designa un insieme parziale di unità o elementi singoli tratti da un insieme più grande, detto popolazione o universo. Generalmente, è usato il termine popolazione o massa per designare gli insiemi finiti, quello di universo per designare gli insiemi che risultano da un numero infinito di unità. La teoria del c. studia le relazioni esistenti tra l'insieme parziale e l'insieme delle unità che compongono la popolazione o universo dal quale il primo è tratto, con l'intento di accertare se certe quantità caratteristiche o proprietà del primo possano riguardarsi come approssimazioni più o meno precise delle analoghe caratteristiche o proprietà del secondo. Ciò dipende dalla necessità di giungere talora ad una conoscenza sufficientemente approssimativa della misura dei caratteri di un fenomeno attraverso l'osservazione di una sola parte delle unità di cui il fenomeno stesso risulta composto. Spesso, infatti, è assai difficile, se non impossibile, osservare tutte le unità o casi singoli di un fenomeno collettivo considerato dalla statistica, come ad esempio tutti i maschi adulti di una popolazione, per avere una misura della statura; tal'altra, l'osservazione della totalità delle unità può non essere conveniente per l'alto costo che essa comporta, specie tutte le volte in cui l'osservazione dovrà essere ripetuta a intervalli regolari per avere una conoscenza del dinamismo del fenomeno nel tempo, come è ad esempio il caso dell'occupazione e della disoccupazione alla fine di ciascun mese, trimestre o anno.

Nell'uso delle espressioni, insieme parziale, insieme totale, popolazione o massa, universo, è implicito il concetto che si tratta di insiemi composti da unità tra loro omogenee rispetto ai caratteri che si desiderano studiare, e differenti solo per le modalità sotto cui i caratteri stessi si presentano; così un insieme di maschi adulti costituisce una massa o popolazione statistica di unità omogenee tra loro rispetto al carattere statura, ma diverse l'una dall'altra solo per la diversa intensità nella misura del carattere considerato.

Perché da un c. sia possibile avere una conoscenza approssimativa della misura dei caratteri della popolazione o universo da cui è tratto, è necessario che siano soddisfatte alcune condizioni. Fondamentale, fra tali condizioni, è che il campione sia rappresentativo della popolazione o universo da cui è tratto. La teoria insegna che, in generale, un campione è rappresentativo quando le unità che lo compongono siano scelte a caso, e tutte le unità dell'universo abbiano una uguale probabilità di essere estratte. Nella pratica delle rilevazioni campionarie però, non sempre è possibile eseguire una scelta a caso, e si dovrà far ricorso, senza tuttavia rinunciare al richiesto carattere di rappresentatività, ad un altro modo di scelta, comunemente noto sotto il nome di scelta ragionata o scelta giudiziosa. Talora può anche essere opportuno associare alla scelta casuale pura quella ragionata, cosicché possono aversi c. ottenuti: a) mediante scelta a caso; b) mediante scelta ragionata; c) mediante un procedimento misto ragionato e casuale. La teoria del c., grazie anche all'ausilio del calcolo delle probabilità, si è sviluppata prendendo in considerazione, come è evidente, il c. casuale, tanto che qualche studioso usa il termine "campione" solo per designare l'insieme parziale di unità scelte a caso da una popolazione o universo. A stretto rigore, perché si possa dire casuale un c. è necessario che le unità da cui risulta formato siano scelte così come si fa per estrarre un dato numero di palline tra quelle contenute in un'urna; palline perfettamente uguali in tutto, tranne che per il colore, per modo che tutte indistintamente abbiano uguale probabilità di essere estratte. Lo schema probabilistico dell'urna, che assicura la scelta a caso, viene in pratica rispettato utilizzando, in luogo di una vera e propria estrazione da un'urna, qualche principio meccanico o qualche altro accorgimento, quale l'uso di tavole di numeri casuali o la cosiddetta scelta sistematica da liste, ammissibile questa quando si abbia la certezza che nella lista non si riscontrano caratteristiche di periodicità legate all'intervallo di scelta delle unità.

Abbiamo detto che le conoscenze che si possono ottenere da un c. devono riguardarsi come approssimazioni più o meno precise di quelle della popolazione o universo, da cui il campione stesso è tratto. Ciò è perché, come abbiamo detto, le singole unità, se sono omogenee fra loro rispetto a un dato carattere, per esempio, l'attività lavorativa di un gruppo di individui (operai), non lo sono per le varie modalità con le quali il carattere stesso si presenta (gli operai possono essere occupati o non occupati, maschi, femmine, giovani, adulti, anziani, ecc., qualificati o non qualificati, specializzati, ecc.).

La precisione o il grado di approssimazione cresce, ordinariamente, col crescere del numero delle unità osservate, col crescere, cioè dell'ampiezza del campione, ed è tanto maggiore quanto minore è la variabilità che le modalità delle stesse unità osservate presentano nella popolazione o universo.

Il problema che dunque si presenta è quello di determinare il numero delle unità che devono formare il c. affinché l'approssimazione sia tale che la differenza rispetto alla misura vera non superi un dato limite, o, in altre parole, che non vada oltre il limite di un dato intervallo, detto intervallo di confidenza.

Tale intervallo è espresso, con assegnata probabilità, in termini di unità dello scarto quadratico medio quale risulta teoricamente dalla distribuzione delle differenze fra la misura vera del carattere nella popolazione o universo di (N) unità e le misure date da tutti i campioni di (n) unità che possono essere formati dalla stessa popolazione o universo e cioè

Quando n è sufficientemente grande, tali differenze si distribuiscono secondo la legge normale della probabilità. Pertanto se

sono le misure ottenute da ciascun campione, ed ā fosse la vera misura che lo stesso carattere presenta nell'universo, la media quadratica σ delle differenze

segnerebbe i limiti dell'intervallo entro cui la misura cercata varierebbe con probabilità pari al 68,26%. Cioè vi sarebbero circa 68 probabilità su 100 che la misura del carattere nella popolazione non differisca in più o in meno di σ. Pertanto la probabilità P che ā sia compreso entro i limiti di un dato intervallo dipende dalle unità di scarto. Indicando con t il numero delle unità di σ, la probabilità che ā sia compreso fra a-tσ e a + tσ, sarà pari o superiore

Ora, in una distribuzione normale, il valore di σ è dato dall'espressione

ove n è il numero delle unità considerate, e p la frequenza di una data modalità del carattere nell'universo, e q = 1 − p. Non conoscendo p, si considera il corrispondente valore f dato dal campione, nella supposizione, del resto fondata, che per n sufficientemente grande la differenza f − p sia trascurahile ai fini del calcolo, per modo che l'errore, calcolato sugli elementi forniti dal campione nel caso di frequenza, e che indicheremo con Sj, sarà dato dall'espressione

Nel caso che la misura del carattere considerato sia un valore medio, l'errore di campionamento (Sā) sarà calcolato partendo dal rapporto fra la varianza della distribuzione delle misure date dalle unità osservate σ²c e l'ampiezza del campione e cioè, nel caso di n sufficientemente grande S²a = σ²c: n, da cui Sa = σc: √n. I due casi considerati sono i più generali, e valgono, come si è detto, per n molto grande. Da esse si può ricavare il valore di n, quando si voglia programmare una rilevazione per campioni fissando l'errore massimo consentito e l'intervallo di confidenza con probabilità P assegnata. Nel caso di frequenze di caratteri qualitativi, sarà infatti n = f(1-f)t2/s2 e, nel caso di caratteri quantitativi, n = (σt/s)2. Il calcolo presupoone, naturalmente, una conoscenza, sia pure approssimativa, di f o di σ cosicché il risultato che in tal modo si ottiene non può essere considerato che come puramente indicativo dell'ampiezza del campione sul quale potrà essere condotta la rilevazione.

La teoria dei campioni casuali non si arresta qui; essa si spinge oltre nell'analisi dei risultati della rilevazione e quindi delle stime eseguite sulla base dei risultati stessi, mediante l'ausilio di procedimenti matematici e di schemi probabilistici atti a fornire allo studioso utili indicazioni circa l'idoneità delle stime stesse a risolvere i problemi che sono stati posti.

Bibl.: G. Udny Yule e M. G. Kendall, An introduction to the theory of statistics, Londra 1949; L. Galvani, I concetti fondamentali del metodo rappresentativo, in I problemi del servizio sociale, VII (1952), n. 3; B. Barberi, Contributo ad una sistematica della teoria dei campioni casuali, in Rivista italiana di economia, demografia e statistica, X (1956), n. 3-4; F. C. Mills, Metodi statistici, Torino 1958.

© Istituto della Enciclopedia Italiana - Riproduzione riservata

TAG

Calcolo delle probabilità

Intervallo di confidenza

Scarto quadratico medio

Popolazione statistica

Distribuzione normale