docgid.ru

Intervallo di confidenza. ABC della statistica medica. Capitolo III. Campioni e intervalli di confidenza

Nei paragrafi precedenti abbiamo considerato il problema della stima di un parametro sconosciuto UN un numero. Questa è chiamata stima “puntuale”. In una serie di attività, non è necessario solo trovare il parametro UN valore numerico adeguato, ma anche per valutarne l'accuratezza e l'affidabilità. È necessario sapere a quali errori può portare la sostituzione di un parametro UN la sua stima puntuale UN e con quale grado di sicurezza possiamo aspettarci che questi errori non superino i limiti conosciuti?

Problemi di questo tipo sono particolarmente rilevanti con un numero limitato di osservazioni, quando si effettua la stima puntuale e dentroè in gran parte casuale e la sostituzione approssimativa di a con a può portare a gravi errori.

Per dare un'idea dell'accuratezza e dell'attendibilità del preventivo UN,

Nelle statistiche matematiche vengono utilizzati i cosiddetti intervalli di confidenza e probabilità di confidenza.

Consideriamo il parametro UN stima imparziale ottenuta dall’esperienza UN. Vogliamo stimare il possibile errore in questo caso. Assegniamo una probabilità p sufficientemente grande (ad esempio, p = 0,9, 0,95 o 0,99) tale che un evento con probabilità p possa essere considerato praticamente affidabile, e troviamo un valore s per il quale

Quindi l'intervallo di valori praticamente possibili dell'errore che si verifica durante la sostituzione UN SU UN, sarà ± s; Grandi errori in valore assoluto appariranno solo con una bassa probabilità a = 1 - p. Riscriviamo la (14.3.1) come:

L'uguaglianza (14.3.2) significa che con probabilità p il valore sconosciuto del parametro UN rientra nell'intervallo

È necessario notare una circostanza. In precedenza, abbiamo ripetutamente considerato la probabilità che una variabile casuale rientri in un dato intervallo non casuale. Qui la situazione è diversa: la grandezza UN non è casuale, ma l'intervallo /p è casuale. La sua posizione sull'asse x è casuale, determinata dal suo centro UN; In generale, anche la lunghezza dell'intervallo 2s è casuale, poiché il valore di s viene calcolato, di regola, da dati sperimentali. Pertanto, in questo caso, sarebbe meglio interpretare il valore p non come la probabilità di “centrare” il punto UN nell'intervallo /p, e come la probabilità che un intervallo casuale /p copra il punto UN(Fig. 14.3.1).

Riso. 14.3.1

Di solito viene chiamata la probabilità p probabilità di confidenza, e intervallo / p - intervallo di confidenza. Confini di intervallo Se. unx =a- sabbia un2 = un+ e vengono chiamati confini della fiducia.

Diamo un'altra interpretazione al concetto di intervallo di confidenza: può essere considerato come un intervallo di valori di parametri UN, compatibili con i dati sperimentali e non contraddittori. Infatti, se accettiamo di considerare un evento con probabilità a = 1-p praticamente impossibile, allora quei valori del parametro a per i quali aa> s devono essere riconosciuti come dati sperimentali contraddittori e quelli per i quali |a - UN a t na 2 .

Consideriamo il parametro UN c'è una stima imparziale UN. Se conoscessimo la legge della distribuzione della quantità UN, il compito di trovare un intervallo di confidenza sarebbe molto semplice: basterebbe trovare un valore s per il quale

La difficoltà è che la legge della distribuzione delle stime UN dipende dalla legge di distribuzione della quantità X e, quindi, sui suoi parametri sconosciuti (in particolare, sul parametro stesso UN).

Per aggirare questa difficoltà, è possibile utilizzare la seguente tecnica approssimativa: sostituire i parametri sconosciuti nell'espressione per s con le loro stime puntuali. Con un numero relativamente elevato di esperimenti P(circa 20...30) questa tecnica dà solitamente risultati soddisfacenti in termini di accuratezza.

Ad esempio, consideriamo il problema di un intervallo di confidenza per l'aspettativa matematica.

Lascia che sia prodotto P X, le cui caratteristiche sono l'aspettativa matematica T e varianza D- sconosciuto. Per questi parametri sono state ottenute le seguenti stime:

È necessario costruire un intervallo di confidenza /p corrispondente alla probabilità di confidenza p per l'aspettativa matematica T le quantità X.

Nel risolvere questo problema, utilizzeremo il fatto che la quantità T rappresenta la somma P variabili casuali indipendenti identicamente distribuite Xh e secondo il teorema del limite centrale, per un sufficientemente grande P la sua legge di distribuzione è vicina alla normalità. In pratica, anche con un numero di termini relativamente piccolo (circa 10...20), la legge di distribuzione della somma può essere considerata approssimativamente normale. Assumeremo che il valore T distribuiti secondo la legge normale. Le caratteristiche di questa legge - aspettativa matematica e varianza - sono rispettivamente uguali T E

(vedi capitolo 13 sottosezione 13.3). Supponiamo che il valore D sappiamo e troveremo un valore Ep per il quale

Usando la formula (6.3.5) del Capitolo 6, esprimiamo la probabilità sul lato sinistro della (14.3.5) attraverso la funzione di distribuzione normale

dove è la deviazione standard della stima T.

Dall'Eq.

trovare il valore di Sp:

dove arg Ф* (х) è la funzione inversa di Ф* (X), quelli. tale valore dell'argomento per il quale la funzione di distribuzione normale è uguale X.

Dispersione D, attraverso il quale viene espressa la quantità UN 1P, non lo sappiamo esattamente; come valore approssimativo è possibile utilizzare la stima D(14.3.4) e posto approssimativamente:

Pertanto, è stato approssimativamente risolto il problema della costruzione di un intervallo di confidenza, che è pari a:

dove gp è determinato dalla formula (14.3.7).

Per evitare l'interpolazione inversa nelle tabelle della funzione Ф* (l) quando si calcola s p, è conveniente compilare una tabella speciale (Tabella 14.3.1), che fornisce i valori della quantità

a seconda di r. Il valore (p determina per la legge normale il numero di deviazioni standard che devono essere tracciate a destra e a sinistra dal centro di dispersione in modo che la probabilità di entrare nell'area risultante sia uguale a p.

Utilizzando il valore 7 p, l'intervallo di confidenza è espresso come:

Tabella 14.3.1

Esempio 1. Sono stati effettuati 20 esperimenti sulla quantità X; i risultati sono mostrati nella tabella. 14.3.2.

Tabella 14.3.2

È necessario trovare una stima dell'aspettativa matematica della quantità X e costruire un intervallo di confidenza corrispondente alla probabilità di confidenza p = 0,8.

Soluzione. Abbiamo:

Scegliendo l: = 10 come punto di riferimento, utilizzando la terza formula (14.2.14) troviamo la stima imparziale D :

Secondo la tabella 14.3.1 troviamo

Limiti di confidenza:

Intervallo di confidenza:

Valori dei parametri T, compresi in questo intervallo sono compatibili con i dati sperimentali riportati in tabella. 14.3.2.

Un intervallo di confidenza per la varianza può essere costruito in modo simile.

Lascia che sia prodotto P Esperimenti indipendenti su una variabile casuale X con parametri sconosciuti sia per A che per dispersione Dè stata ottenuta una stima imparziale:

È necessario costruire approssimativamente un intervallo di confidenza per la varianza.

Dalla formula (14.3.11) è chiaro che la quantità D rappresenta

quantità P variabili casuali della forma . Questi valori non lo sono

indipendente, poiché ognuno di essi include la quantità T, dipendente da tutti gli altri. Si può però dimostrare che all’aumentare P anche la legge di distribuzione della loro somma si avvicina alla normalità. Quasi alle P= 20...30 si può già considerare normale.

Supponiamo che sia così e troviamo le caratteristiche di questa legge: aspettativa matematica e dispersione. Dalla valutazione D- imparziale, allora M[D] = D.

Calcolo della varianza D Dè associato a calcoli relativamente complessi, quindi presentiamo la sua espressione senza derivazione:

dove q 4 è il quarto momento centrale della grandezza X.

Per utilizzare questa espressione, è necessario sostituire i valori \u003d 4 e D(almeno quelli vicini). Invece di D puoi usare la sua valutazione D. In linea di principio, il quarto momento centrale può anche essere sostituito da una stima, ad esempio un valore della forma:

ma una tale sostituzione darà una precisione estremamente bassa, poiché in generale, con un numero limitato di esperimenti, i momenti di ordine elevato vengono determinati con grandi errori. Tuttavia, in pratica accade spesso che il tipo di legge sulla distribuzione quantitativa X noto in anticipo: solo i suoi parametri sono sconosciuti. Quindi puoi provare a esprimere μ 4 attraverso D.

Prendiamo il caso più comune, quando il valore X distribuiti secondo la legge normale. Poi il suo quarto momento centrale è espresso in termini di dispersione (vedi capitolo 6, sottosezione 6.2);

e la formula (14.3.12) dà O

Sostituzione dell'ignoto in (14.3.14) D la sua valutazione D, otteniamo: da dove

Il momento μ 4 può essere espresso con D anche in alcuni altri casi, quando la distribuzione del valore X non è normale, ma il suo aspetto è noto. Ad esempio, per la legge della densità uniforme (vedi Capitolo 5) abbiamo:

dove (a, P) è l'intervallo su cui è specificata la legge.

Quindi,

Usando la formula (14.3.12) otteniamo: dove lo troviamo approssimativamente?

Nei casi in cui non si conosca il tipo di legge di distribuzione della quantità 26, quando si effettua una stima approssimativa del valore a/) si consiglia comunque di utilizzare la formula (14.3.16), a meno che non vi siano ragioni particolari per ritenere che questa legge è molto diverso da quello normale (presenta una notevole curtosi positiva o negativa).

Se il valore approssimativo a/) viene ottenuto in un modo o nell'altro, allora possiamo costruire un intervallo di confidenza per la varianza nello stesso modo in cui lo abbiamo costruito per l'aspettativa matematica:

dove il valore dipendente dalla probabilità p data si trova secondo la tabella. 14.3.1.

Esempio 2. Trova un intervallo di confidenza di circa l'80% per la varianza di una variabile casuale X nelle condizioni dell'esempio 1, se è noto che il valore X distribuiti secondo una legge prossima alla normalità.

Soluzione. Il valore rimane lo stesso della tabella. 14.3.1:

Secondo la formula (14.3.16)

Usando la formula (14.3.18) troviamo l'intervallo di confidenza:

L'intervallo corrispondente di valori di deviazione standard: (0,21; 0,29).

14.4. Metodi esatti per costruire intervalli di confidenza per i parametri di una variabile casuale distribuita secondo una legge normale

Nella sottosezione precedente, abbiamo esaminato metodi approssimativamente approssimativi per costruire intervalli di confidenza per l'aspettativa matematica e la varianza. Qui daremo un'idea dei metodi esatti per risolvere lo stesso problema. Sottolineiamo che per individuare con precisione gli intervalli di confidenza è assolutamente necessario conoscere in anticipo la forma della legge di distribuzione della quantità X, mentre per l'applicazione dei metodi approssimati ciò non è necessario.

L'idea di metodi accurati per costruire intervalli di confidenza si riduce a quanto segue. Qualsiasi intervallo di confidenza si trova a partire da una condizione che esprime la probabilità di soddisfare determinate disuguaglianze, che includono la stima a cui siamo interessati UN. Legge di distribuzione dei valori UN nel caso generale dipende da parametri sconosciuti della quantità X. Tuttavia, a volte è possibile passare alle disuguaglianze da una variabile casuale UN a qualche altra funzione dei valori osservati XpX2, ..., X pag. la cui legge di distribuzione non dipende da parametri sconosciuti, ma dipende solo dal numero di esperimenti e dal tipo di legge di distribuzione della quantità X. Questi tipi di variabili casuali svolgono un ruolo importante nella statistica matematica; essi sono stati studiati più in dettaglio per il caso di una distribuzione normale della quantità X.

Ad esempio, è stato dimostrato che con una distribuzione normale del valore X valore casuale

obbedisce al cosiddetto Legge sulla distribuzione degli studenti Con P- 1 grado di libertà; la densità di questa legge ha la forma

dove G(x) è la funzione gamma nota:

È stato anche dimostrato che la variabile casuale

ha una "distribuzione%2" con P- 1 grado di libertà (vedi Capitolo 7), la cui densità è espressa dalla formula

Senza soffermarci sulle derivazioni delle distribuzioni (14.4.2) e (14.4.4), mostreremo come possono essere applicate quando si costruiscono intervalli di confidenza per i parametri ty D.

Lascia che sia prodotto P Esperimenti indipendenti su una variabile casuale X, normalmente distribuito con parametri sconosciuti A. Per questi parametri sono state ottenute delle stime

È necessario costruire intervalli di confidenza per entrambi i parametri corrispondenti alla probabilità di confidenza p.

Costruiamo innanzitutto un intervallo di confidenza per l'aspettativa matematica. È naturale considerare questo intervallo simmetrico rispetto a T; indichiamo con s la metà della lunghezza dell'intervallo. Il valore s p deve essere scelto in modo che la condizione sia soddisfatta

Proviamo a spostarci sul lato sinistro dell'uguaglianza (14.4.5) dalla variabile casuale T ad una variabile casuale T, distribuiti secondo la legge di Student. Per fare ciò, moltiplica entrambi i lati della disuguaglianza |m-w?|

da un valore positivo: o, usando la notazione (14.4.1),

Troviamo un numero / p tale che il valore / p possa essere trovato dalla condizione

Dalla formula (14.4.2) è chiaro che (1) è una funzione pari, quindi (14.4.8) dà

L'uguaglianza (14.4.9) determina il valore /p in base a p. Se hai a disposizione una tabella dei valori integrali

quindi il valore di /p può essere trovato mediante interpolazione inversa nella tabella. Tuttavia è più conveniente stilare in anticipo una tabella dei valori /p. Tale tabella è riportata nell'Appendice (Tabella 5). Questa tabella mostra i valori in funzione del livello di confidenza p e del numero di gradi di libertà P- 1. Avendo determinato / p dalla tabella. 5 e assumendo

troveremo metà dell'ampiezza dell'intervallo di confidenza /p e l'intervallo stesso

Esempio 1. 5 esperimenti indipendenti sono stati eseguiti su una variabile casuale X, normalmente distribuito con parametri sconosciuti T e a proposito di. I risultati degli esperimenti sono riportati nella tabella. 14.4.1.

Tabella 14.4.1

Trova valutazione T per l'aspettativa matematica e costruire per essa un intervallo di confidenza del 90% / p (cioè l'intervallo corrispondente alla probabilità di confidenza p = 0,9).

Soluzione. Abbiamo:

Secondo la tabella 5 della domanda di P - 1 = 4 e p = 0,9 troviamo Dove

L'intervallo di confidenza sarà

Esempio 2. Per le condizioni dell'esempio 1 del paragrafo 14.3, assumendo il valore X distribuito normalmente, trovare l'esatto intervallo di confidenza.

Soluzione. Secondo la tabella 5 dell'appendice troviamo quando P - 1 = 19ir =

0,8/p = 1,328; da qui

Confrontando con la soluzione dell'esempio 1 del paragrafo 14.3 (ep = 0,072), siamo convinti che la discrepanza sia molto insignificante. Se manteniamo la precisione fino alla seconda cifra decimale, gli intervalli di confidenza rilevati con il metodo esatto e approssimato coincidono:

Passiamo alla costruzione di un intervallo di confidenza per la varianza. Consideriamo lo stimatore imparziale della varianza

ed esprimere la variabile casuale D attraverso la magnitudo V(14.4.3), avente distribuzione x 2 (14.4.4):

Conoscere la legge della distribuzione delle quantità V, puoi trovare l'intervallo /(1) in cui cade con una data probabilità p.

Legge della distribuzione kn_x(v) la magnitudo I 7 ha la forma mostrata in Fig. 14.4.1.

Riso. 14.4.1

La domanda sorge spontanea: come scegliere l'intervallo / p? Se la legge di distribuzione della grandezza V fosse simmetrico (come la legge normale o la distribuzione di Student), sarebbe naturale prendere l'intervallo /p simmetrico rispetto all'aspettativa matematica. In questo caso la legge k p_x (v) asimmetrico. Accettiamo di scegliere l'intervallo /p in modo che la probabilità del valore sia V oltre l'intervallo a destra e a sinistra (aree ombreggiate nella Fig. 14.4.1) erano uguali e uguali

Per costruire un intervallo /p con questa proprietà, utilizziamo la tabella. 4 applicazioni: contiene numeri sì) tale che

per il valore V, avente distribuzione x 2 con r gradi di libertà. Nel nostro caso r = n- 1. Risolviamo r = n- 1 e trova nella riga corrispondente della tabella. 4 due significati x2- uno corrispondente alla probabilità, l'altro alla probabilità. Indichiamoli

valori alle 2 E XL? L'intervallo ha e 2, con la sinistra, e sì~ estremità destra.

Cerchiamo ora dall'intervallo /p l'intervallo di confidenza desiderato /|, per la dispersione con confini D, e D2, che copre il punto D con probabilità p:

Costruiamo un intervallo / (, = (?> ü А) che copra il punto D se e solo se il valore V rientra nell'intervallo /r. Mostriamo che l'intervallo

soddisfa questa condizione. Anzi, le disuguaglianze equivalgono alle disuguaglianze

e queste disuguaglianze sono soddisfatte con probabilità p. Pertanto, l'intervallo di confidenza per la varianza è stato trovato ed è espresso dalla formula (14.4.13).

Esempio 3. Trovare l'intervallo di confidenza per la varianza nelle condizioni dell'esempio 2 della sottosezione 14.3, se è noto che il valore X normalmente distribuito.

Soluzione. Abbiamo . Secondo la tabella 4 dell'appendice

troviamo a r = n- 1 = 19

Usando la formula (14.4.13) troviamo l'intervallo di confidenza per la varianza

L'intervallo corrispondente per la deviazione standard è (0,21; 0,32). Questo intervallo supera solo di poco l'intervallo (0,21; 0,29) ottenuto nell'esempio 2 del paragrafo 14.3 utilizzando il metodo approssimato.

  • La Figura 14.3.1 considera un intervallo di confidenza simmetrico rispetto a a. In generale, come vedremo in seguito, questo non è necessario.

L'intervallo di confidenza ci viene dal campo della statistica. Questo è un certo intervallo che serve a stimare un parametro sconosciuto con un alto grado di affidabilità. Il modo più semplice per spiegarlo è con un esempio.

Supponiamo che tu debba studiare qualche variabile casuale, ad esempio la velocità di risposta del server a una richiesta del client. Ogni volta che un utente digita l'indirizzo di un sito specifico, il server risponde a velocità diverse. Pertanto, il tempo di risposta oggetto dello studio è casuale. Quindi, l'intervallo di confidenza ci consente di determinare i limiti di questo parametro e quindi possiamo dire che con una probabilità del 95% il server si troverà nell'intervallo da noi calcolato.

Oppure devi scoprire quante persone conoscono il marchio dell’azienda. Calcolando l'intervallo di confidenza si potrà dire, ad esempio, che con una probabilità del 95% la quota di consumatori consapevoli è compresa tra il 27% e il 34%.

Strettamente correlato a questo termine è il valore della probabilità di confidenza. Rappresenta la probabilità che il parametro desiderato sia compreso nell'intervallo di confidenza. Quanto sarà ampio l'intervallo desiderato dipende da questo valore. Maggiore è il valore assunto, più stretto diventa l’intervallo di confidenza e viceversa. In genere è impostato su 90%, 95% o 99%. Il valore 95% è il più popolare.

Questo indicatore è influenzato anche dalla dispersione delle osservazioni e la sua definizione si basa sul presupposto che la caratteristica oggetto di studio obbedisca, affermazione nota anche come Legge di Gauss. Secondo lui, normale è una distribuzione di tutte le probabilità di una variabile casuale continua che può essere descritta da una densità di probabilità. Se l’ipotesi di una distribuzione normale non è corretta, la stima potrebbe essere errata.

Per prima cosa, vediamo come calcolare l'intervallo di confidenza per. Ci sono due casi possibili qui. La dispersione (il grado di diffusione di una variabile casuale) può essere nota o meno. Se è noto, il nostro intervallo di confidenza viene calcolato utilizzando la seguente formula:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - segno,

t - parametro dalla tabella di distribuzione di Laplace,

σ è la radice quadrata della varianza.

Se la varianza è sconosciuta, allora può essere calcolata conoscendo tutti i valori della caratteristica desiderata. A questo scopo viene utilizzata la seguente formula:

σ2 = х2ср - (хср)2, dove

х2ср - valore medio dei quadrati della caratteristica studiata,

(хср)2 è il quadrato di questa caratteristica.

La formula con cui viene calcolato l'intervallo di confidenza in questo caso cambia leggermente:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - media del campione,

α - segno,

t è un parametro che si trova utilizzando la tabella di distribuzione di Student t = t(ɣ;n-1),

sqrt(n) - radice quadrata della dimensione totale del campione,

s è la radice quadrata della varianza.

Considera questo esempio. Supponiamo che in base ai risultati di 7 misurazioni, la caratteristica studiata sia determinata pari a 30 e la varianza campionaria pari a 36. È necessario trovare, con una probabilità del 99%, un intervallo di confidenza che contenga il vero valore del parametro misurato.

Innanzitutto, determiniamo a cosa è uguale t: t = t (0,99; 7-1) = 3,71. Usando la formula sopra, otteniamo:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (quadrato(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

L'intervallo di confidenza per la varianza viene calcolato sia nel caso di una media nota sia quando non sono disponibili dati sull'aspettativa matematica ed è noto solo il valore della stima puntuale e imparziale della varianza. Non forniremo qui le formule per calcolarlo, poiché sono piuttosto complesse e, se lo si desidera, possono sempre essere trovate su Internet.

Notiamo solo che è conveniente determinare l'intervallo di confidenza utilizzando Excel o un servizio di rete, chiamato così.

Stima degli intervalli di confidenza

obiettivi formativi

Le statistiche considerano quanto segue due compiti principali:

    Abbiamo una stima basata su dati campione e vogliamo fare alcune affermazioni probabilistiche su dove si trova il vero valore del parametro stimato.

    Abbiamo un’ipotesi specifica che deve essere testata utilizzando dati campione.

In questo argomento consideriamo il primo compito. Introduciamo anche la definizione di intervallo di confidenza.

Un intervallo di confidenza è un intervallo costruito attorno al valore stimato di un parametro e mostra dove si trova il valore reale del parametro stimato con una probabilità specificata a priori.

Dopo aver studiato il materiale su questo argomento, tu:

    imparare cos'è un intervallo di confidenza per una stima;

    imparare a classificare i problemi statistici;

    padroneggiare la tecnica di costruzione degli intervalli di confidenza, sia utilizzando formule statistiche che utilizzando strumenti software;

    imparare a determinare le dimensioni del campione richieste per raggiungere determinati parametri di accuratezza delle stime statistiche.

Distribuzioni delle caratteristiche del campione

Distribuzione T

Come discusso in precedenza, la distribuzione della variabile casuale è vicina alla distribuzione normale standardizzata con parametri 0 e 1. Poiché non conosciamo il valore di σ, lo sostituiamo con una stima di s. La quantità ha già una distribuzione diversa, vale a dire o Distribuzione degli studenti, che è determinato dal parametro n -1 (il numero di gradi di libertà). Questa distribuzione è vicina alla distribuzione normale (maggiore n, più vicine sono le distribuzioni).

Nella fig. 95
viene presentata la distribuzione di Student con 30 gradi di libertà. Come puoi vedere, è molto vicino alla distribuzione normale.

Analogamente alle funzioni per lavorare con la distribuzione normale DISTRIB.NORMIDIST e INV.NORM, ci sono funzioni per lavorare con la distribuzione t - DISTRIB.STUDIST (TDIST) e STUDRASOBR (TINV). Un esempio di utilizzo di queste funzioni è visibile nel file STUDRASP.XLS (template e soluzione) e in Fig. 96
.

Distribuzioni di altre caratteristiche

Come già sappiamo, per determinare l'accuratezza della stima dell'aspettativa matematica, abbiamo bisogno di una distribuzione t. Per stimare altri parametri, come la varianza, sono necessarie distribuzioni diverse. Due di questi sono la distribuzione F e x 2 -distribuzione.

Intervallo di confidenza per la media

Intervallo di confidenza- si tratta di un intervallo costruito attorno al valore stimato del parametro e mostra dove si trova il valore reale del parametro stimato con una probabilità specificata a priori.

Si procede alla costruzione di un intervallo di confidenza per il valore medio nel seguente modo:

Esempio

Il fast food prevede di ampliare il proprio assortimento con un nuovo tipo di sandwich. Per stimare la domanda, il manager prevede di selezionare casualmente 40 visitatori tra coloro che lo hanno già provato e chiedere loro di valutare il loro atteggiamento nei confronti del nuovo prodotto su una scala da 1 a 10. Il manager vuole stimare la domanda attesa. numero di punti che il nuovo prodotto riceverà e costruire un intervallo di confidenza del 95% per questa stima. Come fare questo? (vedi file SANDWICH1.XLS (modello e soluzione).

Soluzione

Per risolvere questo problema puoi usare . I risultati sono presentati in Fig. 97
.

Intervallo di confidenza per il valore totale

A volte, utilizzando dati campione, è necessario stimare non l'aspettativa matematica, ma la somma totale dei valori. Ad esempio, in una situazione con un revisore dei conti, l'interesse potrebbe essere quello di stimare non la dimensione media del conto, ma la somma di tutti i conti.

Sia N il numero totale di elementi, n la dimensione del campione, T 3 la somma dei valori del campione, T" la stima della somma dell'intera popolazione, quindi e l'intervallo di confidenza è calcolato dalla formula , dove s è la stima della deviazione standard per il campione ed è la stima della media per il campione.

Esempio

Supponiamo che un'agenzia fiscale voglia stimare il totale dei rimborsi fiscali per 10.000 contribuenti. Il contribuente riceve un rimborso o paga tasse aggiuntive. Trovare l'intervallo di confidenza del 95% per l'importo del rimborso, assumendo un campione di 500 persone (vedere il file IMPORTO DEL RIMBORSO.XLS (modello e soluzione).

Soluzione

StatPro non dispone di una procedura speciale per questo caso, tuttavia si può notare che i limiti possono essere ottenuti dai limiti della media in base alle formule di cui sopra (Fig. 98
).

Intervallo di confidenza per la proporzione

Sia p l'aspettativa matematica della quota di clienti, e sia p b la stima di questa quota ottenuta da un campione di dimensione n. Si può dimostrare che per sufficientemente grande la distribuzione della valutazione sarà prossima alla normale con aspettativa matematica p e deviazione standard . L'errore standard di stima in questo caso è espresso come , e l'intervallo di confidenza è come .

Esempio

Il fast food prevede di ampliare il proprio assortimento con un nuovo tipo di sandwich. Per valutare la domanda, il manager ha selezionato casualmente 40 visitatori tra quelli che lo avevano già provato e ha chiesto loro di valutare il loro atteggiamento nei confronti del nuovo prodotto su una scala da 1 a 10. Il manager vuole stimare la percentuale prevista di clienti che valutano il nuovo prodotto almeno di 6 punti (si aspetta che questi clienti siano i consumatori del nuovo prodotto).

Soluzione

Inizialmente creiamo una nuova colonna basata sull'attributo 1 se la valutazione del cliente era superiore a 6 punti e 0 altrimenti (vedi file SANDWICH2.XLS (modello e soluzione).

Metodo 1

Contando il numero 1, stimiamo la quota e quindi utilizziamo le formule.

Il valore zcr è preso da speciali tabelle di distribuzione normale (ad esempio, 1,96 per un intervallo di confidenza del 95%).

Utilizzando questo approccio e dati specifici per costruire un intervallo del 95%, otteniamo i seguenti risultati (Fig. 99
). Il valore critico del parametro zcr è 1,96. L'errore standard della stima è 0,077. Il limite inferiore dell'intervallo di confidenza è 0,475. Il limite superiore dell'intervallo di confidenza è 0,775. Pertanto, il manager ha il diritto di credere con una fiducia del 95% che la percentuale di clienti che valutano il nuovo prodotto con un punteggio pari o superiore a 6 punti sarà compresa tra 47,5 e 77,5.

Metodo 2

Questo problema può essere risolto utilizzando gli strumenti standard di StatPro. Per fare ciò è sufficiente notare che la quota in questo caso coincide con il valore medio della colonna Tipo. Successivamente applichiamo StatPro/Inferenza statistica/Analisi di un campione per costruire un intervallo di confidenza della media (stima dell'aspettativa matematica) per la colonna Tipo. I risultati ottenuti in questo caso saranno molto vicini ai risultati del 1o metodo (Fig. 99).

Intervallo di confidenza per la deviazione standard

s viene utilizzato come stima della deviazione standard (la formula è fornita nella Sezione 1). La funzione di densità della stima s è la funzione chi quadrato che, come la distribuzione t, ha n-1 gradi di libertà. Esistono funzioni speciali per lavorare con questa distribuzione CHIDIST e CHIINV.

L’intervallo di confidenza in questo caso non sarà più simmetrico. Un diagramma di confine convenzionale è mostrato in Fig. 100 .

Esempio

La macchina deve produrre pezzi con un diametro di 10 cm, tuttavia, a causa di varie circostanze, si verificano degli errori. Il controllore della qualità si preoccupa di due circostanze: in primo luogo, il valore medio dovrebbe essere di 10 cm; in secondo luogo, anche in questo caso, se gli scostamenti sono consistenti, molte parti verranno scartate. Ogni giorno realizza un campione di 50 pezzi (vedi file CONTROLLO QUALITÀ.XLS (modello e soluzione). Quali conclusioni può dare un campione del genere?

Soluzione

Costruiamo intervalli di confidenza al 95% per la media e la deviazione standard utilizzando StatPro/Inferenza statistica/Analisi di un campione(figura 101
).

Successivamente, partendo dal presupposto di una distribuzione normale dei diametri, calcoliamo la percentuale di prodotti difettosi, fissando una deviazione massima di 0,065. Utilizzando le funzionalità della tabella di sostituzione (il caso di due parametri), tracciamo la dipendenza della proporzione dei difetti dal valore medio e dalla deviazione standard (Fig. 102
).

Intervallo di confidenza per la differenza tra due medie

Questa è una delle applicazioni più importanti dei metodi statistici. Esempi di situazioni.

    Il direttore di un negozio di abbigliamento vorrebbe sapere quanto spende in più o in meno nel negozio la cliente media femminile rispetto al cliente medio maschile.

    Le due compagnie aeree effettuano rotte simili. Un'organizzazione di consumatori vorrebbe confrontare la differenza tra i tempi medi di ritardo dei voli previsti per entrambe le compagnie aeree.

    L'azienda invia buoni per determinati tipi di merce in una città e non in un'altra. I manager vogliono confrontare i volumi medi di acquisto di questi prodotti nei prossimi due mesi.

    Un concessionario di automobili si occupa spesso di coppie sposate durante le presentazioni. Per comprendere le loro reazioni personali alla presentazione, le coppie vengono spesso intervistate separatamente. Il manager vuole valutare la differenza nelle valutazioni date da uomini e donne.

Caso di campioni indipendenti

La differenza tra le medie avrà una distribuzione t con n 1 + n 2 - 2 gradi di libertà. L'intervallo di confidenza per μ 1 - μ 2 è espresso dalla relazione:

Questo problema può essere risolto non solo utilizzando le formule di cui sopra, ma anche utilizzando gli strumenti StatPro standard. Per fare questo, è sufficiente utilizzare

Intervallo di confidenza per la differenza tra proporzioni

Sia l'aspettativa matematica delle azioni. Consideriamo le loro stime campionarie, costruite rispettivamente da campioni di dimensione n 1 e n 2. Quindi c'è una stima della differenza. Pertanto, l’intervallo di confidenza di questa differenza è espresso come:

Qui z cr è un valore ottenuto da una distribuzione normale utilizzando tabelle speciali (ad esempio, 1,96 per un intervallo di confidenza del 95%).

L’errore standard di stima è espresso in questo caso dalla relazione:

.

Esempio

Il negozio, preparandosi per una grande svendita, ha intrapreso le seguenti ricerche di mercato. I primi 300 acquirenti sono stati selezionati e divisi casualmente in due gruppi di 150 membri ciascuno. A tutti i clienti selezionati è stato inviato un invito a partecipare alla vendita, ma solo i membri del primo gruppo hanno ricevuto un buono che dà diritto ad uno sconto del 5%. Durante la vendita sono stati registrati gli acquisti di tutti i 300 acquirenti selezionati. Come può un manager interpretare i risultati ed esprimere un giudizio sull'efficacia dei coupon? (vedi file COUPONS.XLS (modello e soluzione)).

Soluzione

Nel nostro caso specifico, su 150 clienti che hanno ricevuto un buono sconto, 55 hanno effettuato un acquisto in saldo, e tra i 150 che non hanno ricevuto un buono sconto, solo 35 hanno effettuato un acquisto (Fig. 103
). Quindi i valori delle proporzioni campionarie sono rispettivamente 0,3667 e 0,2333. E la differenza campionaria tra loro è pari rispettivamente a 0,1333. Assumendo un intervallo di confidenza del 95%, troviamo dalla tabella della distribuzione normale z cr = 1,96. Il calcolo dell'errore standard della differenza campionaria è 0,0524. Alla fine troviamo che il limite inferiore dell'intervallo di confidenza al 95% è 0,0307 e il limite superiore è 0,2359, rispettivamente. I risultati ottenuti possono essere interpretati in modo tale che per ogni 100 clienti che hanno ricevuto un buono sconto possiamo aspettarci da 3 a 23 nuovi clienti. Tuttavia, dobbiamo tenere presente che questa conclusione di per sé non significa l'efficacia dell'utilizzo dei coupon (poiché offrendo uno sconto, perdiamo profitto!). Dimostriamolo con dati specifici. Supponiamo che l'importo medio dell'acquisto sia di 400 rubli, di cui 50 rubli. c'è un profitto per il negozio. Quindi il profitto atteso su 100 clienti che non hanno ricevuto un coupon è:

50 0,2333 100 = 1166,50 rub.

Calcoli simili per 100 clienti che hanno ricevuto un coupon danno:

30 0,3667 100 = 1100,10 rub.

La diminuzione del profitto medio a 30 è spiegata dal fatto che, utilizzando lo sconto, i clienti che hanno ricevuto un buono effettueranno in media un acquisto per 380 rubli.

Pertanto, la conclusione finale indica l'inefficacia dell'utilizzo di tali coupon in questa particolare situazione.

Commento. Questo problema può essere risolto utilizzando gli strumenti standard di StatPro. Per fare ciò è sufficiente ridurre questo problema al problema di stimare la differenza tra due medie utilizzando il metodo, e poi applicare StatPro/Inferenza statistica/Analisi di due campioni costruire un intervallo di confidenza per la differenza tra due valori medi.

Controllo della lunghezza dell'intervallo di confidenza

La lunghezza dell'intervallo di confidenza dipende da seguenti condizioni:

    dati direttamente (deviazione standard);

    livello di significatività;

    misura di prova.

Dimensione del campione per la stima della media

Innanzitutto consideriamo il problema nel caso generale. Indichiamo con B il valore della metà della lunghezza dell'intervallo di confidenza fornitoci (Fig. 104
). Sappiamo che l'intervallo di confidenza per il valore medio di una variabile casuale X è espresso come , Dove . Credere:

ed esprimendo n otteniamo .

Sfortunatamente non conosciamo il valore esatto della varianza della variabile casuale X. Inoltre non conosciamo il valore di tcr, poiché dipende da n attraverso il numero di gradi di libertà. In questa situazione, possiamo fare quanto segue. Invece della varianza, utilizziamo una stima della varianza basata su qualsiasi implementazione disponibile della variabile casuale in studio. Invece del valore t cr, utilizziamo il valore z cr per la distribuzione normale. Ciò è abbastanza accettabile, poiché le funzioni di densità di distribuzione per le distribuzioni normale e t sono molto vicine (ad eccezione del caso di n piccolo). Pertanto la formula richiesta assume la forma:

.

Poiché la formula fornisce, in generale, risultati non interi, l'arrotondamento con un eccesso del risultato viene considerato la dimensione del campione desiderata.

Esempio

Il fast food prevede di ampliare il proprio assortimento con un nuovo tipo di sandwich. Per valutare la domanda, il manager intende selezionare casualmente un numero di visitatori tra quelli che lo hanno già provato e chiedere loro di valutare il loro atteggiamento nei confronti del nuovo prodotto su una scala da 1 a 10. Il manager vuole stimare il numero previsto di punti che il nuovo prodotto riceverà e costruire un intervallo di confidenza del 95% per questa stima. Allo stesso tempo, vuole che la metà dell'intervallo di confidenza non superi 0,3. Quanti visitatori deve intervistare?

come segue:

Qui r otsè una stima della proporzione p e B è una data metà della lunghezza dell'intervallo di confidenza. Una sovrastima di n può essere ottenuta utilizzando il valore r ots= 0,5. In questo caso, la lunghezza dell'intervallo di confidenza non supererà il valore specificato B per qualsiasi valore vero di p.

Esempio

Lascia che il manager dell'esempio precedente pianifichi di stimare la quota di clienti che hanno preferito un nuovo tipo di prodotto. Vuole costruire un intervallo di confidenza al 90% la cui semilunghezza non superi 0,05. Quanti clienti dovrebbero essere inclusi nel campione casuale?

Soluzione

Nel nostro caso il valore di z cr = 1.645. Pertanto, la quantità richiesta viene calcolata come .

Se il manager avesse motivo di credere che il valore p desiderato fosse, ad esempio, circa 0,3, allora sostituendo questo valore nella formula precedente, otterremmo un valore del campione casuale più piccolo, vale a dire 228.

Formula per determinare dimensione del campione casuale in caso di differenza tra due medie scritto come:

.

Esempio

Alcune società di computer dispongono di un centro di assistenza clienti. Recentemente, il numero di reclami dei clienti sulla scarsa qualità del servizio è aumentato. Il centro servizi impiega principalmente due tipologie di dipendenti: quelli che non hanno molta esperienza, ma hanno completato corsi preparatori speciali, e quelli che hanno una vasta esperienza pratica, ma non hanno completato corsi speciali. L'azienda vuole analizzare i reclami dei clienti negli ultimi sei mesi e confrontare il numero medio di reclami per ciascuno dei due gruppi di dipendenti. Si presuppone che i numeri nei campioni per entrambi i gruppi siano gli stessi. Quanti dipendenti devono essere inclusi nel campione per ottenere un intervallo del 95% con una mezza lunghezza non superiore a 2?

Soluzione

Qui σ ots è una stima della deviazione standard di entrambe le variabili casuali assumendo che siano vicine. Pertanto, nel nostro problema dobbiamo in qualche modo ottenere questa stima. Ciò può essere fatto, ad esempio, come segue. Dopo aver esaminato i dati sui reclami dei clienti negli ultimi sei mesi, un manager potrebbe notare che ciascun dipendente riceve generalmente da 6 a 36 reclami. Sapendo che per una distribuzione normale quasi tutti i valori si trovano a non più di tre deviazioni standard dalla media, si può ragionevolmente ritenere che:

, da dove σ ots = 5.

Sostituendo questo valore nella formula, otteniamo .

Formula per determinare dimensione del campione casuale in caso di stima della differenza tra le proporzioni ha la forma:

Esempio

Alcune aziende hanno due stabilimenti che producono prodotti simili. Un dirigente d'azienda vuole confrontare la percentuale di prodotti difettosi in entrambe le fabbriche. Secondo le informazioni disponibili, il tasso di difetti in entrambi gli stabilimenti varia dal 3 al 5%. Si intende costruire un intervallo di confidenza al 99% con una semilunghezza non superiore a 0,005 (o 0,5%). Quanti prodotti devono essere selezionati da ciascuna fabbrica?

Soluzione

Qui p 1ots e p 2ots sono stime di due quote sconosciute di difetti nella 1a e 2a fabbrica. Se mettiamo p 1ots = p 2ots = 0,5, otteniamo un valore sovrastimato per n. Ma poiché nel nostro caso abbiamo alcune informazioni a priori su queste azioni, prendiamo la stima superiore di queste azioni, vale a dire 0,05. Noi abbiamo

Quando si stimano alcuni parametri della popolazione a partire da dati campione, è utile fornire non solo una stima puntuale del parametro, ma anche fornire un intervallo di confidenza che mostri dove può trovarsi il valore esatto del parametro da stimare.

In questo capitolo abbiamo anche conosciuto le relazioni quantitative che ci permettono di costruire tali intervalli per vari parametri; metodi appresi per controllare la lunghezza dell'intervallo di confidenza.

Si noti inoltre che il problema della stima delle dimensioni del campione (il problema della pianificazione di un esperimento) può essere risolto utilizzando gli strumenti standard di StatPro, vale a dire StatPro/Inferenza statistica/Selezione dimensione del campione.

Costruiamo un intervallo di confidenza in MS EXCEL per stimare il valore medio della distribuzione nel caso di un valore di dispersione noto.

Ovviamente la scelta livello di fiducia dipende completamente dalla risoluzione del problema. Pertanto, il grado di fiducia di un passeggero aereo nell'affidabilità di un aereo dovrebbe senza dubbio essere superiore al grado di fiducia di un acquirente nell'affidabilità di una lampadina elettrica.

Formulazione del problema

Supponiamo che da popolazione essendo stato preso campione taglia n. Si presume che deviazione standard questa distribuzione è nota. È necessario in base a questo campioni valutare l'ignoto media di distribuzione(μ, ) e costruire il corrispondente doppia faccia intervallo di confidenza.

Stima puntuale

Come è noto da statistiche(denotiamolo X media) È stima imparziale della media Questo popolazione ed ha distribuzione N(μ;σ 2 /n).

Nota: Cosa fare se è necessario costruire intervallo di confidenza nel caso di una distribuzione che non è normale? In questo caso, viene in soccorso, che prevede che abbia una dimensione sufficientemente grande campioni n dalla distribuzione non essendo normale, distribuzione campionaria delle statistiche X avg Volere circa corrispondere distribuzione normale con parametri N(μ;σ 2 /n).

COSÌ, stima puntuale media valori di distribuzione abbiamo - questo campione medio, cioè. X media. Ora cominciamo intervallo di confidenza.

Costruzione di un intervallo di confidenza

Di solito, conoscendo la distribuzione ed i suoi parametri, possiamo calcolare la probabilità che la variabile casuale assuma un valore compreso nell'intervallo da noi specificato. Ora facciamo il contrario: troviamo l’intervallo in cui cadrà la variabile casuale con una data probabilità. Ad esempio, dalle proprietà distribuzione normaleè noto che con una probabilità del 95%, una variabile casuale distribuita su legge normale, rientrerà nell'intervallo di circa +/- 2 da valore medio(vedi articolo su). Questo intervallo ci servirà da prototipo intervallo di confidenza.

Ora vediamo se conosciamo la distribuzione , calcolare questo intervallo? Per rispondere alla domanda dobbiamo indicare la forma della distribuzione e i suoi parametri.

Conosciamo la forma di distribuzione: questa è distribuzione normale(ricordate che stiamo parlando di distribuzione del campionamento statistiche X media).

Il parametro μ ci è sconosciuto (va solo stimato utilizzando intervallo di confidenza), ma ne abbiamo una stima X media, calcolato in base a campioni, che può essere utilizzato.

Secondo parametro - deviazione standard della media campionaria lo considereremo noto, è uguale a σ/√n.

Perché non sappiamo μ, quindi costruiremo l’intervallo +/- 2 deviazioni standard non da valore medio, e dalla sua stima nota X media. Quelli. durante il calcolo intervallo di confidenza NON lo daremo per scontato X media rientra nell'intervallo +/- 2 deviazioni standard da μ con una probabilità del 95% e assumeremo che l'intervallo sia +/- 2 deviazioni standard da X media con una probabilità del 95% coprirà μ – media della popolazione generale, da cui è stato tratto campione. Queste due affermazioni sono equivalenti, ma la seconda affermazione ci permette di costruire intervallo di confidenza.

Inoltre, chiariamo l'intervallo: una variabile casuale distribuita legge normale, con una probabilità del 95% rientra nell'intervallo +/- 1.960 deviazioni standard, non +/- 2 deviazioni standard. Questo può essere calcolato utilizzando la formula =NORM.ST.REV((1+0,95)/2), cm. file di esempio Intervallo foglio.

Ora possiamo formulare un'affermazione probabilistica che ci servirà a formare intervallo di confidenza:
"La probabilità che popolazione media situato da media campionaria entro 1.960" deviazioni standard della media campionaria", pari al 95%".

Il valore di probabilità menzionato nella dichiarazione ha un nome speciale , a cui è associato livello di significatività α (alfa) mediante una semplice espressione livello di fiducia =1 . Nel nostro caso livello di significatività α =1-0,95=0,05 .

Ora, sulla base di questa affermazione probabilistica, scriviamo un'espressione per il calcolo intervallo di confidenza:

dove Zα/2 standard distribuzione normale(questo valore della variabile casuale z, Che cosa P(z>=Zα/2 )=α/2).

Nota: α/2-quantile superiore definisce la larghezza intervallo di confidenza V deviazioni standard campione medio. α/2-quantile superiore standard distribuzione normale sempre maggiore di 0, il che è molto conveniente.

Nel nostro caso, con α=0,05, α/2-quantile superiore equivale a 1.960. Per altri livelli di significatività α (10%; 1%) α/2-quantile superiore Zα/2 può essere calcolato utilizzando la formula =NORM.ST.REV(1-α/2) o, se nota livello di fiducia, =NORM.ST.OBR((1+livello di attendibilità)/2).

Di solito durante la costruzione Intervalli di confidenza per la stima della media Usare solo α superiore/2-quantile e non usare α inferiore/2-quantile. Questo è possibile perché standard distribuzione normale simmetricamente rispetto all'asse x ( la sua densità distributiva simmetrico circa nella media, cioè 0). Pertanto non è necessario calcolare α/2-quantile inferiore(si chiama semplicemente α /2-quantile), Perché è uguale α superiore/2-quantile con un segno meno.

Ricordiamo che, nonostante la forma della distribuzione del valore x, la corrispondente variabile casuale X media distribuito circa Bene N(μ;σ 2 /n) (vedi articolo su). Pertanto, in generale, l'espressione di cui sopra per intervallo di confidenzaè solo un'approssimazione. Se il valore x è distribuito su legge normale N(μ;σ 2 /n), quindi l'espressione per intervallo di confidenzaè accurato.

Calcolo dell'intervallo di confidenza in MS EXCEL

Risolviamo il problema.
Il tempo di risposta di un componente elettronico a un segnale di ingresso è una caratteristica importante del dispositivo. Un ingegnere desidera costruire un intervallo di confidenza per il tempo di risposta medio con un livello di confidenza del 95%. Dall'esperienza precedente, l'ingegnere sa che la deviazione standard del tempo di risposta è di 8 ms. È noto che per valutare il tempo di risposta, l'ingegnere ha effettuato 25 misurazioni, il valore medio era di 78 ms.

Soluzione: Un ingegnere vuole conoscere il tempo di risposta di un dispositivo elettronico, ma capisce che il tempo di risposta non è un valore fisso, ma una variabile casuale che ha una propria distribuzione. Quindi, il meglio che può sperare è determinare i parametri e la forma di questa distribuzione.

Sfortunatamente, dalle condizioni problematiche non conosciamo la forma della distribuzione del tempo di risposta (non deve esserlo). normale). , anche questa distribuzione è sconosciuta. Si conosce solo lui deviazione standardσ=8. Pertanto, mentre non possiamo calcolare le probabilità e costruire intervallo di confidenza.

Tuttavia, nonostante non conosciamo la distribuzione tempo risposta separata, lo sappiamo secondo CPT, distribuzione del campionamento tempo medio di rispostaè approssimativamente normale(supponiamo che le condizioni CPT vengono effettuati, perché misurare campioni abbastanza grande (n=25)) .

Inoltre, media questa distribuzione è uguale a valore medio distribuzione di una singola risposta, ad es. µ. UN deviazione standard di questa distribuzione (σ/√n) può essere calcolata utilizzando la formula =8/ROOT(25) .

È anche noto che l'ingegnere ha ricevuto stima puntuale parametro μ pari a 78 ms (X avg). Pertanto, ora possiamo calcolare le probabilità, perché conosciamo la forma di distribuzione ( normale) e i suoi parametri (X avg e σ/√n).

L'ingegnere vuole sapere valore atteso Distribuzioni dei tempi di risposta μ. Come detto sopra, questo μ è uguale a aspettativa matematica della distribuzione campionaria del tempo medio di risposta. Se usiamo distribuzione normale N(X avg; σ/√n), allora il μ desiderato sarà compreso nell'intervallo +/-2*σ/√n con una probabilità di circa il 95%.

Livello di significatività equivale a 1-0,95=0,05.

Infine, troviamo il bordo sinistro e destro intervallo di confidenza.
Bordo sinistro: =78-NORM.ST.REV(1-0.05/2)*8/ROOT(25) = 74,864
Bordo destro: =78+INV.ST.NORM.(1-0.05/2)*8/ROOT(25)=81.136

Bordo sinistro: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Bordo destro: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Risposta: intervallo di confidenza A Livello di confidenza del 95% e σ=8ms equivale 78+/-3,136 ms.

IN file di esempio sul foglio Sigma noto, ha creato un modulo per il calcolo e la costruzione doppia faccia intervallo di confidenza per arbitrario campioni con dati σ e livello di significatività.

Funzione FIDUCIA.NORM()

Se i valori campioni sono nella gamma B20:B79 , UN livello di significatività pari a 0,05; quindi la formula MS EXCEL:
=MEDIA(B20:B79)-CONFIDENZA.NORM(0,05;σ; CONTEGGIO(B20:B79))
restituirà il bordo sinistro intervallo di confidenza.

Lo stesso limite può essere calcolato utilizzando la formula:
=MEDIA(B20:B79)-NORM.ST.REV(1-0,05/2)*σ/ROOT(COUNT(B20:B79))

Nota: La funzione CONFIDENCE.NORM() è apparsa in MS EXCEL 2010. Nelle versioni precedenti di MS EXCEL, veniva utilizzata la funzione TRUST().

Intervalli di confidenza.

Il calcolo dell'intervallo di confidenza si basa sull'errore medio del parametro corrispondente. Intervallo di confidenza mostra entro quali limiti con probabilità (1-a) si trova il vero valore del parametro stimato. Qui a è il livello di significatività, (1-a) è anche chiamato probabilità di confidenza.

Nel primo capitolo abbiamo dimostrato che, ad esempio, per la media aritmetica, la vera media della popolazione in circa il 95% dei casi si trova entro 2 errori standard dalla media. Pertanto, i limiti dell'intervallo di confidenza al 95% per la media saranno separati dalla media campionaria del doppio dell'errore medio della media, ovvero moltiplichiamo l'errore medio della media per un certo coefficiente a seconda del livello di confidenza. Per la media e la differenza delle medie si prende il coefficiente di Student (valore critico della prova di Student), per la quota e la differenza delle quote il valore critico del criterio z. Il prodotto del coefficiente e dell'errore medio può essere chiamato errore massimo di un dato parametro, ad es. il massimo che possiamo ottenere nel valutarlo.

Intervallo di confidenza per significato aritmetico : .

Ecco la media campionaria;

Errore medio della media aritmetica;

S - deviazione standard del campione;

N

f = n-1 (Coefficiente studente).

Intervallo di confidenza per differenze di medie aritmetiche :

Ecco la differenza tra le medie campionarie;

- errore medio della differenza tra medie aritmetiche;

s1, s2 – deviazioni standard del campione;

n1,n2

Il valore critico del test di Student per un dato livello di significatività a e il numero di gradi di libertà f=n1+n2-2 (Coefficiente studente).

Intervallo di confidenza per azioni :

.

Qui d è la frazione campionaria;

– errore medio della frazione;

N– dimensione del campione (dimensione del gruppo);

Intervallo di confidenza per differenza di azioni :

Ecco la differenza nelle quote del campione;

– errore medio della differenza tra medie aritmetiche;

n1,n2– volumi dei campioni (numero di gruppi);

Il valore critico del criterio z a un dato livello di significatività a ( , , ).

Calcolando gli intervalli di confidenza per la differenza tra gli indicatori, in primo luogo vediamo direttamente i possibili valori dell'effetto e non solo la sua stima puntuale. In secondo luogo possiamo trarre una conclusione sull’accettazione o il rifiuto dell’ipotesi nulla e, in terzo luogo, possiamo trarre una conclusione sulla potenza del test.

Quando si testano ipotesi utilizzando intervalli di confidenza, è necessario rispettare la seguente regola:

Se l'intervallo di confidenza del 100(1-a) per cento della differenza tra le medie non contiene zero, allora le differenze sono statisticamente significative al livello di significatività a; al contrario, se tale intervallo contiene zero, allora le differenze non sono statisticamente significative.

Infatti, se questo intervallo contiene zero, significa che l'indicatore confrontato può essere maggiore o minore in uno dei gruppi rispetto all'altro, cioè le differenze osservate sono dovute al caso.

La potenza del test può essere giudicata dalla posizione dello zero all'interno dell'intervallo di confidenza. Se lo zero è vicino al limite inferiore o superiore dell'intervallo, allora è possibile che con un numero maggiore di gruppi confrontati, le differenze raggiungano la significatività statistica. Se lo zero è vicino alla metà dell'intervallo, significa che sia un aumento che una diminuzione dell'indicatore nel gruppo sperimentale sono ugualmente probabili e, probabilmente, non ci sono davvero differenze.

Esempi:

Confrontare la mortalità chirurgica utilizzando due diversi tipi di anestesia: con il primo tipo di anestesia sono state operate 61 persone, 8 sono morte, con il secondo tipo – 67 persone, 10 sono morte.

d1 = 8/61 = 0,131; d2 = 10/67 = 0,149; d1-d2 = - 0,018.

La differenza di letalità dei metodi confrontati sarà nell'intervallo (-0,018 - 0,122; -0,018 + 0,122) o (-0,14; 0,104) con una probabilità di 100(1-a) = 95%. L'intervallo contiene zero, cioè l'ipotesi di pari mortalità con due diversi tipi di anestesia non può essere scartata.

Pertanto, il tasso di mortalità può e diminuirà al 14% e aumenterà al 10,4% con una probabilità del 95%, vale a dire lo zero è approssimativamente a metà dell'intervallo, quindi si può sostenere che, molto probabilmente, questi due metodi in realtà non differiscono in termini di letalità.

Nell'esempio discusso in precedenza, il tempo medio di pressatura durante il test di tapping è stato confrontato in quattro gruppi di studenti che differivano nei punteggi degli esami. Calcoliamo gli intervalli di confidenza per il tempo medio di pressatura per gli studenti che hanno superato l'esame con i voti 2 e 5 e l'intervallo di confidenza per la differenza tra queste medie.

I coefficienti di Student si trovano utilizzando le tabelle di distribuzione di Student (vedi appendice): per il primo gruppo: = t(0,05;48) = 2,011; per il secondo gruppo: = t(0,05;61) = 2.000. Pertanto, intervalli di confidenza per il primo gruppo: = (162,19-2,011*2,18; 162,19+2,011*2,18) = (157,8; 166,6), per il secondo gruppo (156,55- 2.000*1,88; 156,55+2.000*1,88) = (152,8 ; 160,3). Quindi, per chi ha superato l'esame con 2, il tempo medio di pressatura va da 157,8 ms a 166,6 ms con una probabilità del 95%, per chi ha superato l'esame con 5 – da 152,8 ms a 160,3 ms con una probabilità del 95% .

Puoi anche verificare l'ipotesi nulla utilizzando intervalli di confidenza per le medie e non solo per la differenza tra le medie. Ad esempio, come nel nostro caso, se gli intervalli di confidenza per le medie si sovrappongono, l’ipotesi nulla non può essere rifiutata. Per rifiutare un'ipotesi ad un livello di significatività scelto, i corrispondenti intervalli di confidenza non devono sovrapporsi.

Troviamo l'intervallo di confidenza per la differenza del tempo medio di pressatura nei gruppi che hanno superato l'esame con i voti 2 e 5. Differenza delle medie: 162,19 – 156,55 = 5,64. Coefficiente di studente: = t(0,05;49+62-2) = t(0,05;109) = 1,982. Le deviazioni standard del gruppo saranno pari a: ; . Calcoliamo l'errore medio della differenza tra le medie: . Intervallo di confidenza: =(5,64-1,982*2,87; 5,64+1,982*2,87) = (-0,044; 11,33).

Pertanto, la differenza nel tempo medio di pressatura nei gruppi che hanno superato l'esame con 2 e 5 sarà compresa tra -0,044 ms e 11,33 ms. Questo intervallo include zero, cioè Il tempo medio di pressatura per chi ha superato bene l'esame può aumentare o diminuire rispetto a chi ha superato l'esame in modo insoddisfacente, ovvero l’ipotesi nulla non può essere rifiutata. Ma lo zero è molto vicino al limite inferiore ed è molto più probabile che il tempo di pressatura diminuisca per chi ha superato bene. Pertanto, possiamo concludere che ci sono ancora differenze nel tempo medio di pressatura tra coloro che hanno superato 2 e 5, semplicemente non siamo riusciti a rilevarle data la variazione del tempo medio, la diffusione del tempo medio e le dimensioni del campione.



La potenza di un test è la probabilità di rifiutare un’ipotesi nulla errata, cioè trovare le differenze dove effettivamente esistono.

La potenza del test è determinata in base al livello di significatività, all'entità delle differenze tra i gruppi, alla diffusione dei valori nei gruppi e alla dimensione dei campioni.

Per il test t di Student e l'analisi della varianza è possibile utilizzare i diagrammi di sensibilità.

La potenza del criterio può essere utilizzata per determinare preliminarmente il numero richiesto di gruppi.

L'intervallo di confidenza mostra entro quali limiti si trova il vero valore del parametro stimato con una determinata probabilità.

Utilizzando gli intervalli di confidenza è possibile testare ipotesi statistiche e trarre conclusioni sulla sensibilità dei criteri.

LETTERATURA.

Glanz S. – Capitolo 6,7.

Rebrova O.Yu. – pp.112-114, pp.171-173, pp.234-238.

Sidorenko E.V. – p.32-33.

Domande per l'autotest degli studenti.

1. Qual è il potere del criterio?

2. In quali casi è necessario valutare il potere dei criteri?

3. Metodi di calcolo della potenza.

6. Come verificare un'ipotesi statistica utilizzando un intervallo di confidenza?

7. Cosa si può dire sulla potenza del criterio nel calcolo dell'intervallo di confidenza?

Compiti.

Caricamento...