docgid.ru

Costruire un intervallo di confidenza per le aspettative matematiche della popolazione generale. Intervalli di confidenza per frequenze e proporzioni

E altri: sono tutte stime dei loro analoghi teorici, che potrebbero essere ottenuti se non fosse disponibile un campione, ma una popolazione generale. Ma ahimè, la popolazione generale è molto costosa e spesso inaccessibile.

Il concetto di stima intervallare

Qualsiasi stima del campione ha una certa diffusione, perché è una variabile casuale che dipende dai valori in un particolare campione. Pertanto, per conclusioni statistiche più affidabili, si dovrebbe conoscere non solo la stima puntuale, ma anche l'intervallo, che con un'alta probabilità γ (gamma) copre l'indicatore valutato θ (teta).

Formalmente, questi sono due di questi valori (statistiche) T1(X) E T2(X), Che cosa T1< T 2 , per il quale ad un dato livello di probabilità γ la condizione è soddisfatta:

Insomma, è probabile γ o più il vero indicatore è tra i punti T1(X) E T2(X), che sono chiamati limiti inferiore e superiore intervallo di confidenza.

Una delle condizioni per costruire gli intervalli di confidenza è la sua massima ristrettezza, cioè dovrebbe essere il più breve possibile. Il desiderio è del tutto naturale, perché... il ricercatore cerca di localizzare più accuratamente la posizione del parametro desiderato.

Ne consegue che l'intervallo di confidenza deve coprire le massime probabilità della distribuzione. e la valutazione stessa dovrebbe essere al centro.

Cioè, la probabilità di deviazione (dell'indicatore vero dalla stima) verso l'alto è uguale alla probabilità di deviazione verso il basso. Va inoltre notato che per le distribuzioni asimmetriche l'intervallo a destra non è uguale all'intervallo a sinistra.

La figura sopra mostra chiaramente che maggiore è la probabilità di confidenza, più ampio è l'intervallo: una relazione diretta.

Questa è stata una breve introduzione alla teoria della stima intervallare di parametri sconosciuti. Passiamo alla ricerca dei limiti di confidenza per l'aspettativa matematica.

Intervallo di confidenza per l'aspettativa matematica

Se i dati originali sono distribuiti su , la media sarà un valore normale. Ciò deriva dalla regola secondo cui anche una combinazione lineare di valori normali ha una distribuzione normale. Pertanto, per calcolare le probabilità potremmo utilizzare l'apparato matematico della legge della distribuzione normale.

Tuttavia, ciò richiederà la conoscenza di due parametri: aspettativa e varianza, che solitamente sono sconosciuti. Naturalmente è possibile utilizzare stime invece di parametri (media aritmetica e ), ma in questo caso la distribuzione della media non sarà del tutto normale, sarà leggermente appiattita verso il basso. Questo fatto fu abilmente notato dal cittadino irlandese William Gosset, pubblicando la sua scoperta nel numero di marzo 1908 della rivista Biometrica. Per motivi di segretezza, Gosset si firmò Studente. Ecco come è apparsa la distribuzione t di Student.

Tuttavia, la normale distribuzione dei dati utilizzata da K. Gauss nell'analisi degli errori nelle osservazioni astronomiche è estremamente rara nella vita terrena ed è piuttosto difficile da stabilire (per un'elevata precisione sono necessarie circa 2mila osservazioni). Pertanto, è meglio scartare il presupposto della normalità e utilizzare metodi che non dipendano dalla distribuzione dei dati originali.

Sorge la domanda: qual è la distribuzione della media aritmetica se viene calcolata dai dati di una distribuzione sconosciuta? La risposta è data dalla ben nota teoria della probabilità Teorema del limite centrale(CPT). In matematica ne esistono diverse varianti (le formulazioni sono state perfezionate nel corso degli anni), ma tutte, in parole povere, si riducono all'affermazione che la somma di un gran numero di variabili casuali indipendenti obbedisce alla legge della distribuzione normale.

Quando si calcola la media aritmetica, viene utilizzata la somma delle variabili casuali. Da qui risulta che la media aritmetica ha una distribuzione normale, in cui l'aspettativa è l'aspettativa dei dati originali e la varianza è .

Le persone intelligenti sanno come dimostrare il CLT, ma lo verificheremo con l'aiuto di un esperimento condotto in Excel. Simuliamo un campione di 50 variabili casuali uniformemente distribuite (utilizzando la funzione Excel RANDBETWEEN). Quindi creeremo 1000 campioni di questo tipo e calcoleremo la media aritmetica per ciascuno. Diamo un'occhiata alla loro distribuzione.

Si può vedere che la distribuzione della media è vicina alla legge normale. Se la dimensione e il numero del campione fossero ancora maggiori, la somiglianza sarebbe ancora migliore.

Ora che abbiamo visto con i nostri occhi la validità del CLT, possiamo, utilizzando , calcolare gli intervalli di confidenza per la media aritmetica, che coprono la vera media o aspettativa matematica con una data probabilità.

Per stabilire i limiti superiore e inferiore, è necessario conoscere i parametri della distribuzione normale. Di norma non ce ne sono, quindi vengono utilizzate le stime: significato aritmetico E varianza di campionamento. Ripeto, questo metodo fornisce una buona approssimazione solo con campioni di grandi dimensioni. Quando i campioni sono piccoli, spesso è consigliabile utilizzare la distribuzione Student. Non crederci! La distribuzione di Student per la media si verifica solo quando i dati originali sono distribuiti normalmente, cioè quasi mai. Pertanto, è meglio impostare immediatamente un livello minimo per la quantità di dati richiesti e utilizzare metodi asintoticamente corretti. Dicono che 30 osservazioni siano sufficienti. Prendine 50: non sbaglierai.

T1.2– limiti inferiore e superiore dell'intervallo di confidenza

– media aritmetica campionaria

è 0– deviazione standard del campione (imparziale)

N - misura di prova

γ – probabilità di confidenza (solitamente pari a 0,9, 0,95 o 0,99)

cγ =Φ -1 ((1+γ)/2)– il valore inverso della funzione di distribuzione normale standardizzata. In poche parole, questo è il numero di errori standard dalla media aritmetica al limite inferiore o superiore (queste tre probabilità corrispondono ai valori di 1,64, 1,96 e 2,58).

L'essenza della formula è che viene presa la media aritmetica e poi da essa viene accantonato un certo importo ( con γ) errori standard ( s0 /√n). Tutto è noto, prendilo e consideralo.

Prima dell'uso diffuso dei personal computer, venivano utilizzati per ottenere i valori della funzione di distribuzione normale e del suo inverso. Sono ancora utilizzati oggi, ma è più efficace utilizzare formule Excel già pronte. Tutti gli elementi della formula sopra ( e ) possono essere facilmente calcolati in Excel. Ma esiste una formula già pronta per calcolare l'intervallo di confidenza: FIDUCIA.NORM. La sua sintassi è la seguente.

CONFIDENZA.NORM(alfa;standard_off;dimensione)

alfa– livello di significatività o livello di confidenza, che nella notazione adottata sopra è pari a 1- γ, ovvero la probabilità che il matematicol'aspettativa sarà al di fuori dell'intervallo di confidenza. Con un livello di confidenza di 0,95, alfa è 0,05, ecc.

standard_off– deviazione standard dei dati campione. Non è necessario calcolare l'errore standard; Excel stesso dividerà per la radice di n.

misurare– dimensione del campione (n).

Il risultato della funzione NORMA DI CONFIDENZA è il secondo termine della formula per il calcolo dell'intervallo di confidenza, ad es. mezzo intervallo Di conseguenza, i punti inferiore e superiore rappresentano la media ± il valore ottenuto.

Pertanto, è possibile costruire un algoritmo universale per il calcolo degli intervalli di confidenza per la media aritmetica, che non dipende dalla distribuzione dei dati originali. Il prezzo dell’universalità è la sua natura asintotica, cioè la necessità di utilizzare campioni relativamente grandi. Tuttavia, nell’era della tecnologia moderna, raccogliere la quantità di dati richiesta solitamente non è difficile.

Testare ipotesi statistiche utilizzando intervalli di confidenza

(modulo 111)

Uno dei principali problemi risolti in statistica è. La sua essenza è brevemente la seguente. Si presuppone, ad esempio, che l'aspettativa della popolazione generale sia uguale a un certo valore. Successivamente viene costruita la distribuzione delle medie campionarie che può essere osservata per una data aspettativa. Successivamente, esaminano dove si trova la media reale in questa distribuzione condizionale. Se va oltre i limiti accettabili, la comparsa di una tale media è molto improbabile e se l'esperimento viene ripetuto una volta è quasi impossibile, il che contraddice l'ipotesi avanzata, che viene respinta con successo. Se la media non va oltre il livello critico, allora l'ipotesi non viene scartata (ma nemmeno dimostrata!).

Quindi, con l'aiuto degli intervalli di confidenza, nel nostro caso dell'aspettativa, puoi anche verificare alcune ipotesi. È molto facile da fare. Diciamo che la media aritmetica per un certo campione è uguale a 100. Si verifica l'ipotesi che il valore atteso sia, diciamo, 90. Cioè, se poniamo la domanda in modo primitivo, suona così: può essere che con il vero valore della media pari a 90, la media osservata risulta essere 100?

Per rispondere a questa domanda, avrai inoltre bisogno di informazioni sulla deviazione standard e sulla dimensione del campione. Supponiamo che la deviazione standard sia 30 e che il numero di osservazioni sia 64 (per estrarre facilmente la radice). Quindi l'errore standard della media è 30/8 o 3,75. Per calcolare un intervallo di confidenza al 95%, dovrai aggiungere due errori standard a ciascun lato della media (più precisamente, 1,96). L'intervallo di confidenza sarà di circa 100±7,5 o da 92,5 a 107,5.

Ulteriore ragionamento è il seguente. Se il valore da testare rientra nell'intervallo di confidenza, allora non contraddice l'ipotesi, perché rientra nei limiti delle fluttuazioni casuali (con una probabilità del 95%). Se il punto da verificare esce dall'intervallo di confidenza, allora la probabilità che un tale evento si verifichi è molto piccola, in ogni caso inferiore al livello accettabile. Ciò significa che l’ipotesi viene respinta in quanto contraddittoria rispetto ai dati osservati. Nel nostro caso, l'ipotesi sul valore atteso è al di fuori dell'intervallo di confidenza (il valore testato di 90 non è compreso nell'intervallo 100±7,5), quindi dovrebbe essere rifiutata. Rispondendo alla domanda primitiva di cui sopra, va detto: no, non può, in ogni caso ciò accade estremamente raramente. Spesso indicano la probabilità specifica di rifiutare erroneamente l'ipotesi (livello p), e non il livello specificato su cui è stato costruito l'intervallo di confidenza, ma ne parleremo un'altra volta.

Come puoi vedere, costruire un intervallo di confidenza per la media (o aspettativa matematica) non è difficile. L'importante è coglierne l'essenza e poi le cose andranno avanti. In pratica, la maggior parte dei casi utilizza un intervallo di confidenza del 95%, che è ampio circa due errori standard su entrambi i lati della media.

È tutto per ora. Ti auguro il meglio!

Una persona può riconoscere le sue capacità solo cercando di applicarle. (Seneca)

Intervalli di confidenza

revisione generale

Prelevando un campione dalla popolazione, otteniamo una stima puntuale del parametro di interesse e calcoliamo l'errore standard per indicare la precisione della stima.

Tuttavia, nella maggior parte dei casi l’errore standard in quanto tale non è accettabile. È molto più utile combinare questa misura di accuratezza con una stima intervallare per il parametro della popolazione.

Ciò può essere fatto utilizzando la conoscenza della distribuzione di probabilità teorica della statistica campionaria (parametro) per calcolare un intervallo di confidenza (CI - Confidence Interval, CI - Confidence Interval) per il parametro.

In generale, un intervallo di confidenza estende le stime in entrambe le direzioni di un certo multiplo dell'errore standard (di un dato parametro); i due valori (limiti di confidenza) che definiscono l'intervallo sono solitamente separati da una virgola e racchiusi tra parentesi.

Intervallo di confidenza per la media

Utilizzando la distribuzione normale

La media campionaria è distribuita normalmente se la dimensione del campione è ampia, quindi è possibile applicare la conoscenza della distribuzione normale quando si considera la media campionaria.

Nello specifico, il 95% della distribuzione delle medie campionarie rientra in 1,96 deviazioni standard (SD) della media della popolazione.

Quando abbiamo un solo campione, lo chiamiamo errore standard della media (SEM) e calcoliamo l'intervallo di confidenza al 95% per la media come segue:

Se ripetiamo questo esperimento più volte, l'intervallo conterrà la media reale della popolazione nel 95% dei casi.

Tipicamente si tratta di un intervallo di confidenza, come ad esempio l’intervallo di valori entro il quale si trova la vera media della popolazione (media generale) con una probabilità di confidenza del 95%.

Anche se non è del tutto rigoroso (la media della popolazione è un valore fisso e quindi non può essere associata ad una probabilità) interpretare un intervallo di confidenza in questo modo, è concettualmente più facile da capire.

Utilizzo T- distribuzione

Puoi utilizzare la distribuzione normale se conosci il valore della varianza nella popolazione. Inoltre, quando la dimensione del campione è piccola, la media campionaria segue una distribuzione normale se i dati della popolazione sottostante sono distribuiti normalmente.

Se i dati alla base della popolazione non sono distribuiti normalmente e/o la varianza della popolazione non è nota, la media campionaria obbedisce Distribuzione t di Student.

Calcoliamo l'intervallo di confidenza al 95% per la media della popolazione generale come segue:

Dov'è il punto percentuale (percentile) T- Distribuzione t di Student con (n-1) gradi di libertà, che dà una probabilità bilaterale di 0,05.

In generale, fornisce un intervallo più ampio rispetto all’utilizzo della distribuzione normale perché tiene conto dell’incertezza aggiuntiva introdotta dalla stima della deviazione standard della popolazione e/o a causa della piccola dimensione del campione.

Quando la dimensione del campione è ampia (dell'ordine di 100 o più), la differenza tra le due distribuzioni ( t-Studente e normale) è insignificante. Tuttavia, lo usano sempre T- distribuzione nel calcolo degli intervalli di confidenza, anche se la dimensione del campione è ampia.

In genere viene riportato l'IC al 95%. È possibile calcolare altri intervalli di confidenza, come l'IC al 99% per la media.

Invece del prodotto dell'errore standard e del valore della tabella T- distribuzione, che corrisponde a una probabilità bilaterale di 0,05, moltiplicarla (errore standard) per il valore che corrisponde a una probabilità bilaterale di 0,01. Si tratta di un intervallo di confidenza più ampio rispetto all'intervallo di confidenza del 95% perché riflette una maggiore confidenza che l'intervallo includa effettivamente la media della popolazione.

Intervallo di confidenza per la proporzione

La distribuzione campionaria delle proporzioni ha una distribuzione binomiale. Tuttavia, se la dimensione del campione Nè ragionevolmente grande, allora la distribuzione campionaria della proporzione è approssimativamente normale con la media .

Valutiamo in base al rapporto selettivo p=r/n(Dove R- il numero di individui nel campione con le caratteristiche che ci interessano) e si stima l'errore standard:

L'intervallo di confidenza del 95% per la proporzione è stimato:

Se la dimensione del campione è piccola (di solito quando n.p. O n(1-p) meno 5 ), allora è necessario utilizzare la distribuzione binomiale per calcolare intervalli di confidenza accurati.

Tieni presente che se P espresso in percentuale, quindi (1-p) sostituito da (100 p).

Interpretazione degli intervalli di confidenza

Quando interpretiamo un intervallo di confidenza, siamo interessati alle seguenti domande:

Quanto è ampio l'intervallo di confidenza?

Un ampio intervallo di confidenza indica che la stima è imprecisa; stretto indica una stima accurata.

L'ampiezza dell'intervallo di confidenza dipende dalla dimensione dell'errore standard, che a sua volta dipende dalla dimensione del campione e, quando si considera una variabile numerica, la variabilità dei dati produce intervalli di confidenza più ampi rispetto agli studi su un ampio insieme di dati con poche variabili .

Il CI include valori di particolare interesse?

È possibile verificare se il valore probabile di un parametro della popolazione rientra nell'intervallo di confidenza. Se è così, i risultati sono coerenti con questo valore probabile. In caso contrario, è improbabile (per un intervallo di confidenza del 95% la probabilità è quasi del 5%) che il parametro abbia quel valore.

Intervallo di confidenza– i valori limite di una quantità statistica che, con una data probabilità di confidenza γ, si troverà in questo intervallo quando si campiona un volume maggiore. Indicata come P(θ - ε. In pratica, la probabilità di confidenza γ viene scelta tra valori abbastanza prossimi all'unità: γ = 0,9, γ = 0,95, γ = 0,99.

Scopo del servizio. Utilizzando questo servizio, puoi determinare:

  • intervallo di confidenza per la media generale, intervallo di confidenza per la varianza;
  • intervallo di confidenza per la deviazione standard, intervallo di confidenza per la quota generale;
La soluzione risultante viene salvata in un file Word (vedi esempio). Di seguito è riportata un'istruzione video su come compilare i dati iniziali.

Esempio n. 1. In una fattoria collettiva, su un totale di 1.000 pecore, 100 sono state sottoposte a tosatura di controllo selettivo. Di conseguenza, è stata stabilita una tosatura media della lana di 4,2 kg per pecora. Determinare con una probabilità di 0,99 l'errore quadratico medio del campione nel determinare la tosatura media della lana per pecora e i limiti entro i quali è contenuto il valore di taglio se la varianza è 2,5. Il campione non è ripetitivo.
Esempio n.2. Da un lotto di prodotti importati presso la dogana settentrionale di Mosca, sono stati prelevati 20 campioni del prodotto "A" mediante campionamento ripetuto casuale. Come risultato del test, è stato stabilito il contenuto medio di umidità del prodotto “A” nel campione, che è risultato pari al 6% con una deviazione standard dell'1%.
Determina con probabilità 0,683 i limiti del contenuto di umidità medio del prodotto nell'intero lotto di prodotti importati.
Esempio n.3. Da un sondaggio condotto su 36 studenti è emerso che il numero medio di libri di testo letti da loro durante l'anno accademico era pari a 6. Assumendo che il numero di libri di testo letti da uno studente per semestre abbia una legge di distribuzione normale con una deviazione standard pari a 6, trovare : A) con un'attendibilità di stima intervallare di 0,99 per l'aspettativa matematica di questa variabile casuale; B) con quale probabilità possiamo affermare che il numero medio di libri di testo letti da uno studente per semestre, calcolato da questo campione, si discosterà dall'aspettativa matematica in valore assoluto di non più di 2.

Classificazione degli intervalli di confidenza

Per tipologia di parametro oggetto di valutazione:

Per tipo di campione:

  1. Intervallo di confidenza per un campione infinito;
  2. Intervallo di confidenza per il campione finale;
Il campione è chiamato ricampionamento, se l'oggetto selezionato viene restituito alla popolazione prima di selezionare quello successivo. Il campione è chiamato non ripetuto, se l'oggetto selezionato non viene restituito alla popolazione. In pratica si tratta solitamente di campioni non ripetitivi.

Calcolo dell'errore medio di campionamento per il campionamento casuale

Viene chiamata la discrepanza tra i valori degli indicatori ottenuti dal campione e i corrispondenti parametri della popolazione generale errore di rappresentatività.
Designazioni dei principali parametri delle popolazioni generali e campione.
Formule dell'errore medio di campionamento
riselezioneripetere la selezione
per mediaper condivisioneper mediaper condivisione
Il rapporto tra il limite dell'errore di campionamento (Δ) è garantito con una certa probabilità Р(t), e l'errore medio di campionamento ha la forma: oppure Δ = t·μ, dove T– coefficiente di confidenza, determinato in base al livello di probabilità P(t) secondo la tabella della funzione integrale di Laplace.

Formule per il calcolo della dimensione del campione utilizzando un metodo di campionamento puramente casuale

Istruzioni

Tienilo presente intervallo(l1 o l2), la cui zona centrale sarà la stima l*, e nella quale sarà verosimilmente contenuto il valore vero del parametro, sarà la confidenza intervallo om o il valore corrispondente della probabilità di confidenza alfa. In questo caso, l* stesso farà riferimento a stime puntuali. Ad esempio, sulla base dei risultati di eventuali valori campione di un valore casuale X (x1, x2,..., xn), è necessario calcolare il parametro sconosciuto dell'indicatore l, da cui dipenderà la distribuzione. In questo caso, ottenere una stima di un dato parametro l* consisterà nel fatto che per ciascun campione sarà necessario assegnare un certo valore del parametro, cioè creare una funzione dei risultati dell'osservazione dell'indicatore Q , il cui valore sarà assunto pari al valore stimato del parametro l* nella forma della formula : l*=Q*(x1, x2,..., xn).

Tieni presente che qualsiasi funzione basata sui risultati dell'osservazione è chiamata statistica. Inoltre, se descrive completamente il parametro (fenomeno) in esame, si chiama statistica sufficiente. E poiché i risultati delle osservazioni sono casuali, anche l* sarà una variabile casuale. Il compito di calcolare le statistiche deve essere svolto tenendo conto dei criteri di qualità. Qui è necessario tenere conto del fatto che la legge di distribuzione della stima è abbastanza definita, la distribuzione della densità di probabilità W(x, l).

Puoi calcolare la fiducia intervallo abbastanza semplice se si conosce la legge sulla distribuzione della valutazione. Ad esempio, un fiduciario intervallo stime in relazione all'aspettativa matematica (il valore medio di un valore casuale) mx* =(1/n)*(x1+x2+ …+xn) . Questa stima sarà imparziale, ovvero l'aspettativa matematica o il valore medio dell'indicatore sarà uguale al valore reale del parametro (M(mx*) = mx).

Si può stabilire che la varianza della stima basata sull'aspettativa matematica è: bx*^2=Dx/n. Sulla base del teorema centrale limite, possiamo trarre la conclusione corrispondente che la legge di distribuzione di questa stima è gaussiana (normale). Pertanto, per eseguire i calcoli, è possibile utilizzare l'indicatore Ф(z) - l'integrale delle probabilità. In questo caso, selezionare la lunghezza della confidenza intervallo e 2ld, quindi si ottiene: alpha = P(mx-ld (usando la proprietà dell'integrale di probabilità secondo la formula: Ф(-z)=1- Ф(z)).

Costruisci fiducia intervallo stime dell'aspettativa matematica: - trovare il valore della formula (alfa + 1)/2; - selezionare dalla tabella degli integrali di probabilità un valore pari a lä/sqrt(Dx/n); - effettuare una stima della dispersione vera: Dx *=(1/n)*( (x1 - mx*)^2+(x2 - mx*)^2+…+(xn - mx*)^2); - determina ld; - trova la confidenza intervallo secondo la formula: (mx*-ld, mx*+ld).

Intervalli di confidenza.

Il calcolo dell'intervallo di confidenza si basa sull'errore medio del parametro corrispondente. Intervallo di confidenza mostra entro quali limiti con probabilità (1-a) si trova il vero valore del parametro stimato. Qui a è il livello di significatività, (1-a) è anche chiamato probabilità di confidenza.

Nel primo capitolo abbiamo dimostrato che, ad esempio, per la media aritmetica, la vera media della popolazione in circa il 95% dei casi si trova entro 2 errori standard dalla media. Pertanto, i limiti dell'intervallo di confidenza al 95% per la media saranno separati dalla media campionaria del doppio dell'errore medio della media, ovvero moltiplichiamo l'errore medio della media per un certo coefficiente a seconda del livello di confidenza. Per la media e la differenza delle medie si prende il coefficiente di Student (valore critico della prova di Student), per la quota e la differenza delle quote il valore critico del criterio z. Il prodotto del coefficiente e dell'errore medio può essere chiamato errore massimo di un dato parametro, ad es. il massimo che possiamo ottenere nel valutarlo.

Intervallo di confidenza per significato aritmetico : .

Ecco la media campionaria;

Errore medio della media aritmetica;

S - deviazione standard del campione;

N

f = n-1 (Coefficiente studente).

Intervallo di confidenza per differenze di medie aritmetiche :

Ecco la differenza tra le medie campionarie;

- errore medio della differenza tra medie aritmetiche;

s1, s2 – deviazioni standard del campione;

n1,n2

Il valore critico del test di Student per un dato livello di significatività a e il numero di gradi di libertà f=n1+n2-2 (Coefficiente studente).

Intervallo di confidenza per azioni :

.

Qui d è la frazione campionaria;

– errore medio della frazione;

N– dimensione del campione (dimensione del gruppo);

Intervallo di confidenza per differenza di azioni :

Ecco la differenza nelle quote del campione;

– errore medio della differenza tra medie aritmetiche;

n1,n2– volumi dei campioni (numero di gruppi);

Il valore critico del criterio z a un dato livello di significatività a ( , , ).

Calcolando gli intervalli di confidenza per la differenza tra gli indicatori, in primo luogo vediamo direttamente i possibili valori dell'effetto e non solo la sua stima puntuale. In secondo luogo possiamo trarre una conclusione sull’accettazione o il rifiuto dell’ipotesi nulla e, in terzo luogo, possiamo trarre una conclusione sulla potenza del test.

Quando si testano ipotesi utilizzando intervalli di confidenza, è necessario rispettare la seguente regola:

Se l'intervallo di confidenza del 100(1-a) per cento della differenza tra le medie non contiene zero, allora le differenze sono statisticamente significative al livello di significatività a; al contrario, se tale intervallo contiene zero, allora le differenze non sono statisticamente significative.

Infatti, se questo intervallo contiene zero, significa che l'indicatore confrontato può essere maggiore o minore in uno dei gruppi rispetto all'altro, cioè le differenze osservate sono dovute al caso.

La potenza del test può essere giudicata dalla posizione dello zero all'interno dell'intervallo di confidenza. Se lo zero è vicino al limite inferiore o superiore dell'intervallo, allora è possibile che con un numero maggiore di gruppi confrontati, le differenze raggiungano la significatività statistica. Se lo zero è vicino alla metà dell'intervallo, significa che sia un aumento che una diminuzione dell'indicatore nel gruppo sperimentale sono ugualmente probabili e, probabilmente, non ci sono davvero differenze.

Esempi:

Confrontare la mortalità chirurgica utilizzando due diversi tipi di anestesia: con il primo tipo di anestesia sono state operate 61 persone, 8 sono morte, con il secondo tipo – 67 persone, 10 sono morte.

d1 = 8/61 = 0,131; d2 = 10/67 = 0,149; d1-d2 = - 0,018.

La differenza di letalità dei metodi confrontati sarà nell'intervallo (-0,018 - 0,122; -0,018 + 0,122) o (-0,14; 0,104) con una probabilità di 100(1-a) = 95%. L'intervallo contiene zero, cioè l'ipotesi di pari mortalità con due diversi tipi di anestesia non può essere scartata.

Pertanto, il tasso di mortalità può e diminuirà al 14% e aumenterà al 10,4% con una probabilità del 95%, vale a dire lo zero è approssimativamente a metà dell'intervallo, quindi si può sostenere che, molto probabilmente, questi due metodi in realtà non differiscono in termini di letalità.

Nell'esempio discusso in precedenza, il tempo medio di pressatura durante il test di tapping è stato confrontato in quattro gruppi di studenti che differivano nei punteggi degli esami. Calcoliamo gli intervalli di confidenza per il tempo medio di pressatura per gli studenti che hanno superato l'esame con i voti 2 e 5 e l'intervallo di confidenza per la differenza tra queste medie.

I coefficienti di Student si trovano utilizzando le tabelle di distribuzione di Student (vedi appendice): per il primo gruppo: = t(0,05;48) = 2,011; per il secondo gruppo: = t(0,05;61) = 2.000. Pertanto, intervalli di confidenza per il primo gruppo: = (162,19-2,011*2,18; 162,19+2,011*2,18) = (157,8; 166,6), per il secondo gruppo (156,55- 2.000*1,88; 156,55+2.000*1,88) = (152,8 ; 160,3). Quindi, per chi ha superato l'esame con 2, il tempo medio di pressatura va da 157,8 ms a 166,6 ms con una probabilità del 95%, per chi ha superato l'esame con 5 – da 152,8 ms a 160,3 ms con una probabilità del 95% .

Puoi anche verificare l'ipotesi nulla utilizzando intervalli di confidenza per le medie e non solo per la differenza tra le medie. Ad esempio, come nel nostro caso, se gli intervalli di confidenza per le medie si sovrappongono, l’ipotesi nulla non può essere rifiutata. Per rifiutare un'ipotesi ad un livello di significatività scelto, i corrispondenti intervalli di confidenza non devono sovrapporsi.

Troviamo l'intervallo di confidenza per la differenza del tempo medio di pressatura nei gruppi che hanno superato l'esame con i voti 2 e 5. Differenza delle medie: 162,19 – 156,55 = 5,64. Coefficiente di studente: = t(0,05;49+62-2) = t(0,05;109) = 1,982. Le deviazioni standard del gruppo saranno pari a: ; . Calcoliamo l'errore medio della differenza tra le medie: . Intervallo di confidenza: =(5,64-1,982*2,87; 5,64+1,982*2,87) = (-0,044; 11,33).

Pertanto, la differenza nel tempo medio di pressatura nei gruppi che hanno superato l'esame con 2 e 5 sarà compresa tra -0,044 ms e 11,33 ms. Questo intervallo include zero, cioè Il tempo medio di pressatura per chi ha superato bene l'esame può aumentare o diminuire rispetto a chi ha superato l'esame in modo insoddisfacente, ovvero l’ipotesi nulla non può essere rifiutata. Ma lo zero è molto vicino al limite inferiore ed è molto più probabile che il tempo di pressatura diminuisca per chi ha superato bene. Pertanto, possiamo concludere che ci sono ancora differenze nel tempo medio di pressatura tra coloro che hanno superato 2 e 5, semplicemente non siamo riusciti a rilevarle data la variazione del tempo medio, la diffusione del tempo medio e le dimensioni del campione.



La potenza di un test è la probabilità di rifiutare un’ipotesi nulla errata, cioè trovare le differenze dove effettivamente esistono.

La potenza del test è determinata in base al livello di significatività, all'entità delle differenze tra i gruppi, alla diffusione dei valori nei gruppi e alla dimensione dei campioni.

Per il test t di Student e l'analisi della varianza è possibile utilizzare i diagrammi di sensibilità.

La potenza del criterio può essere utilizzata per determinare preliminarmente il numero richiesto di gruppi.

L'intervallo di confidenza mostra entro quali limiti si trova il vero valore del parametro stimato con una determinata probabilità.

Utilizzando gli intervalli di confidenza è possibile testare ipotesi statistiche e trarre conclusioni sulla sensibilità dei criteri.

LETTERATURA.

Glanz S. – Capitolo 6,7.

Rebrova O.Yu. – pp.112-114, pp.171-173, pp.234-238.

Sidorenko E.V. – p.32-33.

Domande per l'autotest degli studenti.

1. Qual è il potere del criterio?

2. In quali casi è necessario valutare il potere dei criteri?

3. Metodi di calcolo della potenza.

6. Come verificare un'ipotesi statistica utilizzando un intervallo di confidenza?

7. Cosa si può dire sulla potenza del criterio nel calcolo dell'intervallo di confidenza?

Compiti.

Caricamento...