Wednesday 16 August 2017

Estimasi Parametro Regresi Logistik Binario Options


AVVISO: Stai visualizzando una versione non aggiornata di questa pagina. Il nuovo contenuto può essere trovata sul nostro nuovo stats. idre. ucla. edu dominio. È anche possibile cancellare la cache del browser e aggiornare la pagina, che dovrebbe reindirizzare direttamente al contenuto aggiornato. Benvenuti a l'Istituto per gli esempi di ricerca digitale e l'istruzione SPSS analisi dei dati informazioni ordinale regressione logistica Versione: Codice per questa pagina è stato testato in IBM SPSS 20. Si prega di notare: Lo scopo di questa pagina è quello di mostrare come utilizzare i vari comandi di analisi dei dati. Esso non copre tutti gli aspetti del processo di ricerca, che sono tenuti ai ricercatori di fare. In particolare, non copre la pulizia dei dati e il controllo, la verifica di ipotesi, la diagnostica modello e potenziali analisi di follow-up. Esempi di regressione logistica ordinata Esempio 1: una società di ricerche di marketing vuole indagare quali fattori influenzano la dimensione di soda (piccola, media, grande o extra-large) che la gente ordina ora con una catena di fast-food. Questi fattori possono comprendere che tipo di panino è ordinato (hamburger o pollo), anche patatine fritte sono anche ordinato, e l'età del consumatore. Mentre la variabile esito, dimensioni di soda, è ovviamente ordinato, la differenza tra le varie misure non è coerente. La differece tra le piccole e medie è di 10 once, tra le medie e grandi 8, e tra grandi e extra large 12. Esempio 2: Un ricercatore è interessato a quali fattori influenzano medaling nel nuoto olimpico. predittori rilevanti includono in ore di formazione, la dieta, l'età, e la popolarità di nuotare nel paese atleti di casa. Il ricercatore ritiene che la distanza tra oro e argento è maggiore della distanza tra argento e bronzo. Esempio 3: Uno studio esamina i fattori che influenzano la decisione se applicare a scuola. junior college viene chiesto se è improbabile che, in qualche modo probabile o molto probabile che si applicano a scuola. Quindi, la nostra variabile esito ha tre categorie. I dati sullo stato di istruzione dei genitori, se l'istituto universitario è pubblico o privato, e GPA corrente viene anche raccolti. I ricercatori hanno motivo di credere che le distanze tra questi tre punti non sono uguali. Ad esempio, la distanza tra improbabile e abbastanza probabile può essere inferiore alla distanza tra abbastanza probabile e molto probabile. Descrizione dei dati per la nostra analisi dei dati di seguito, ci accingiamo a espandere Esempio 3 di applicare a scuola. Abbiamo simulato alcuni dati per questo esempio e si può ottenere qui. Questo set di dati ipotetici ha una variabile di tre livello chiamato applicare (codificato 0, 1, 2), che useremo come la nostra variabile risultato. Ci sono anche tre variabili che verranno usate come predittori: Pared. che è una variabile 01 che indica se almeno un genitore ha un pubblico laurea. che è una variabile 01, dove 1 indica che l'istituto universitario è pubblico e 0 private, e GPA. che è la media punto gli studenti di grado. Iniziamo con le statistiche descrittive di queste variabili. Metodi di analisi si potrebbe considerare Ecco un elenco di alcuni metodi di analisi si può avere incontrato. Alcuni dei metodi elencati sono abbastanza ragionevoli, mentre altri hanno uno caduto in disgrazia o hanno limitazioni. Ordinato regressione logistica: il focus di questa pagina. Regressione OLS: Questa analisi è problematico perché le ipotesi di OLS sono violati quando viene utilizzato con una variabile esito non-intervallo. ANOVA: Se si utilizza un solo predittore continuo, si potrebbe quotflipquot il modello intorno in modo che, per esempio, GPA era la variabile esito e applicare era la variabile predittore. Poi si potrebbe eseguire un one-way ANOVA. Questo non è una brutta cosa da fare se si dispone di una sola variabile predittiva (dal modello logistico), ed è continuo. Multinomiale regressione logistica: Questo è simile a fare ordinato regressione logistica, se non che si presume che non esiste un ordine alle categorie della variabile esito (cioè le categorie sono nominali). Lo svantaggio di questo approccio è che le informazioni contenute nella ordinamento è perduto. Ordinato regressione probit: Questo è molto, molto simile alla gestione di un regressione logistica ordinato. La differenza principale è nell'interpretazione dei coefficienti. Ordinato regressione logistica Prima di eseguire il nostro modello logistico ordinale, vedremo se le cellule sono vuote o estremamente piccola. Se ce ne sono, si può avere difficoltà a gestire il nostro modello. Ci sono due modi di SPSS che possiamo fare questo. Il primo modo è quello di rendere semplici campi incrociati. Il secondo modo è quello di utilizzare l'opzione CellInfo nel sottocomando stampa. Si dovrebbe utilizzare l'opzione CellInfo soltanto con variabili predittive categoriali la tabella sarà lunga e difficile da interpretare se si includono predittori continui. Nessuna delle cellule è troppo piccolo o vuoto (non ha casi), in modo che verrà eseguito il nostro modello. Nella sintassi di seguito, abbiamo incluso il sottocomando collegamento logit, anche se è il default, giusto per ricordare a noi stessi che stiamo utilizzando la funzione di collegamento logit. Si noti inoltre che se non si include il sottocomando di stampa, solo la tabella riepilogo di elaborazione è fornita in uscita. Nella tabella riepilogo di elaborazione, vediamo il numero e la percentuale di casi in ogni livello della nostra variabile di risposta. Questi numeri vanno bene, ma ci sarebbero preoccupati se un livello ha avuto pochissimi casi in esso. Vediamo anche che tutte le 400 osservazioni nel nostro insieme di dati sono stati utilizzati per l'analisi. Meno osservazioni sarebbero stati utilizzati se qualcuno dei nostri variabili avevano valori mancanti. Per impostazione predefinita, SPSS fa una delezione listwise dei casi con valori mancanti. Avanti vediamo il modello Fitting tavolo informazione, che dà la possibilità -2 log per l'intercetta sola e finali modelli. La probabilità -2 log può essere utilizzato nei confronti di modelli annidati, ma ci voleva mostrare un esempio di quello qui. Nella tabella Stime dei parametri vediamo i coefficienti, i loro errori standard, il test di Wald e p-valori associati (Sig.), E l'intervallo di confidenza 95 dei coefficienti. Sia Pared e GPA sono pubblici statisticamente significativo non è. Così, per Pared. diremmo che per un aumento di una unità a confrontato (vale a dire che va da 0 a 1), ci aspettiamo un aumento del 1,05 nelle probabilità di log ordinati di essere in un più alto livello di applicazione. data tutte le altre variabili del modello sono mantenuti costanti. Per GPA. diremmo che per un aumento di una unità di GPA. ci aspettiamo un aumento del 0,62 nelle probabilità di log di essere in un più alto livello di applicazione. dato che tutte le altre variabili del modello sono mantenuti costanti. Le soglie vengono mostrati in cima dell'uscita stime dei parametri, e indicano se la variabile latente è tagliato per fare i tre gruppi che osserviamo nei nostri dati. Si noti che questa variabile latente è continua. In generale, questi non sono utilizzati nella interpretazione dei risultati. Alcuni pacchetti statistici chiamano i punti di divisione soglie (soglie e punti di divisione sono la stessa cosa) altri pacchetti, come SAS rapporto intercettazioni, che sono il negativo delle soglie. In questo esempio, le intercettazioni sarebbero -2,203 e -4,299. Per ulteriori informazioni, si prega di consultare la FAQ Stata: Come posso convertire Statas parametrizzazione di probit ordinato e modelli logistici a quello in cui una costante stima A partire dalla versione 15 di SPSS, non è possibile ottenere direttamente le odds ratio proporzionali da SPSS. È possibile utilizzare l'Output Management sistema SPSS (OMS) per catturare le stime dei parametri e exponentiate loro, oppure è possibile calcolare a mano. Si prega di consultare Regressione ordinale da Marija J. Norušis per esempi di come fare questo. I comandi per l'utilizzo di OMS e il calcolo delle odds ratio proporzionali Di seguito riportiamo. Per ulteriori informazioni su come utilizzare OMS, consulta le nostre FAQ SPSS: Come posso uscita miei risultati in un file di dati in SPSS Si prega di notare che le singole citazioni nelle parentesi quadre sono importanti, e si ottiene un messaggio di errore se sono omesso o sbilanciato. Nella colonna di expb vediamo i risultati presentati come odds ratio (il coefficiente proporzionale elevate a potenza). Abbiamo inoltre calcolato l'intervallo di confidenza 95 inferiore e superiore. Vorremmo interpretare questi più o meno come si farebbe odds ratio da una regressione logistica binaria. Per Pared. diremmo che per un aumento di una unità di confrontato, vale a dire che va da 0 a 1, le probabilità di alta applicano rispetto al centro combinato e basse categorie sono 2,85 maggiore, dato che tutte le altre variabili del modello sono mantenuti costanti. Allo stesso modo, si applicano le probabilità delle categorie medie e superiori uniti contro basso è 2,85 volte maggiore, dato che tutte le altre variabili del modello sono mantenuti costanti. Per un incremento unitario di GPA. le probabilità delle categorie a basso e medio di applicare contro l'alta categoria di applicare sono 1,85 volte maggiore, dato che le altre variabili del modello sono mantenuti costanti. A causa della probabilità proporzionale ipotesi (vedi sotto per maggiori spiegazioni), lo stesso aumento, 1,85 volte, si trova tra il basso e le categorie combinate di mezzo e applicare alta. Una delle ipotesi alla base logistica ordinata (e ordinata probit) regressione è che il rapporto tra ciascuna coppia di gruppi risultato è lo stesso. In altre parole, ordinato regressione logistica assume che i coefficienti che descrivono la relazione tra, diciamo, il più basso rispetto a tutte le categorie superiori della variabile di risposta sono le stesse di quelle che descrivono la relazione tra la prossima categoria più bassa e tutte le categorie superiori, etc. questa è chiamata la probabilità proporzionale assunzione o l'assunzione di regressione parallele. Poiché il rapporto tra tutte le coppie di gruppi è la stessa, c'è solo un insieme di coefficienti (solo modello). Se questo non era il caso, avremmo bisogno di modelli diversi per descrivere la relazione tra ogni coppia di gruppi di esito. Abbiamo bisogno di testare la probabilità proporzionale ipotesi, e siamo in grado di utilizzare l'opzione tparallel nel sottocomando stampa. L'ipotesi nulla di questo test chi-quadrato è che non vi è alcuna differenza nei coefficienti tra i modelli, quindi speriamo di ottenere un risultato non significativo. La prova di cui sopra indica che non abbiamo violato l'ipotesi probabilità proporzionali. Se l'ipotesi probabilità proporzionale è stata violata, si può decidere di andare con multinomiale regressione logistica. Noi usiamo queste formule per il calcolo delle probabilità previste per ogni livello del risultato, si applicano. probabilità previste sono di solito più facili da capire che i coefficienti o gli odds ratio. Noi calcolare le probabilità previste usando un linguaggio SPSS Matrix. Useremo Pared come esempio con un predittore categoriale. Qui vedremo come le probabilità di appartenenza a ciascuna categoria di applicare il cambiamento come abbiamo variare Pared e tenere l'altra variabile alla loro mezzi. Come si può vedere, la probabilità predetta di essere nella categoria più bassa di applicare è 0.59 se nessuno dei genitori ha una formazione di livello post-laurea e 0,34 in caso contrario. Per la categoria di mezzo di applicazione. le probabilità previste sono 0,33 e 0,47, e per la più alta categoria di applicazione. 0,078 e 0,196. Quindi, se non di un intervistati i genitori hanno una formazione di livello post-laurea, la probabilità prevista di applicare a laurearsi diminuisce scuola. Si noti che le intercettazioni sono i negativi delle soglie. Qui di seguito, vediamo le probabilità previste per GPA a 2, 3 e 4. Come si può vedere, per ogni valore di GPA. la più alta probabilità prevista è per la categoria più bassa di applicare. che ha senso perché la maggioranza degli intervistati sono in quella categoria. Si può anche vedere che le probabilità aumenta previsti sia per il medio e più alte categorie di applicare l'aumentare GPA. Cose da considerare perfetto previsione: Perfect previsione significa che un valore di una variabile predittore è associato a un solo valore della variabile di risposta. Se questo accade, Stata solito emettere una nota nella parte superiore della produzione e diminuirà i casi in modo che il modello può essere eseguito. La dimensione del campione: entrambi ordinato logistico e ordinato probit, utilizzando stime di massima verosimiglianza, richiede dimensione del campione sufficiente. Quanto è grande grande è un argomento di dibattito, ma che quasi sempre richiedono più casi di regressione OLS. Le celle vuote o piccole celle: Si dovrebbe verificare la presenza di celle vuote o piccoli facendo un campo incrociato tra i predittori categoriali e la variabile risultato. Se una cella ha pochi casi, il modello può diventare instabile o potrebbe non funzionare affatto. Pseudo-R-squared: Non vi è alcun analogo esatta della R-squared trovato in OLS. Ci sono molte versioni di pseudo-R-quadrati. Si prega di vedere a lungo e Freese 2005 per maggiori dettagli e spiegazioni dei vari pseudo-R-quadrati. Diagnostica: Fare la diagnostica per i modelli non lineari è difficile, e ha ordinato modelli logitprobit sono ancora più difficili rispetto ai modelli binari. References13 Probit Regressione SPSS analisi dei dati Esempi Probit di regressione, anche chiamato un modello probit, viene utilizzato per modellare le variabili di outcome dicotomiche o binarie. Nel modello probit, l'inverso normale distribuzione standard della probabilità è modellato come combinazione lineare dei predittori. Si prega di notare: Lo scopo di questa pagina è quello di mostrare come utilizzare i vari comandi di analisi dei dati. Esso non copre tutti gli aspetti del processo di ricerca, che sono tenuti ai ricercatori di fare. In particolare, non copre la pulizia dei dati e il controllo, la verifica di ipotesi, la diagnostica modello e potenziali analisi di follow-up. Esempio 1: Supponiamo che ci interessa i fattori che influenzano se un candidato politico vince le elezioni. La variabile risultato è binaria (01) vincere o perdere. Le variabili predittive di interesse sono la quantità di denaro speso per la campagna, la quantità di tempo speso una campagna negativa, e se il candidato è un operatore. Esempio 2: Un ricercatore è interessato a come variabili, come GRE (Graduate Record punteggi d'esame), GPA (media dei voti), e il prestigio dell'istituzione di laurea, effetto ammissione scuola di specializzazione. La variabile di risposta, admitdon8217t ammettere, è una variabile binaria. Descrizione dei dati per la nostra analisi dei dati di seguito, ci accingiamo a espandere Esempio 2 di rimettersi in scuola di specializzazione. Abbiamo generato i dati ipotetici, che possono essere ottenuti cliccando su binary. sav. È possibile memorizzare questo ovunque vi piace, ma i nostri esempi assumere è stato conservato in c: dati. In primo luogo, si legge il file di dati in SPSS. Questo insieme di dati ha una risposta binaria (esito, dipendente) variabile chiamata ammettere. Ci sono tre variabili predittive: gre. GPA e rango. Tratteremo il GRE variabili e GPA come continuo. Il rango variabile è ordinale, assume i valori da 1 a 4. Gli enti con un punteggio di 1 hanno il più alto prestigio, mentre quelli con un grado di 4 hanno il più basso. Tratteremo rango come categorica. Consente di iniziare a guardare statistiche descrittive. Metodi di analisi si potrebbe considerare Ecco un elenco di alcuni metodi di analisi si può avere incontrato. Alcuni dei metodi elencati sono abbastanza ragionevoli, mentre altri hanno uno caduto in disgrazia o hanno limitazioni. Probit regressione, il focus di questa pagina. Regressione logistica. Un modello logit produrrà risultati simili regressione probit. La scelta di probit contro logit dipende in gran parte le preferenze individuali. OLS la regressione. Quando utilizzato con una variabile risposta binaria, questo modello è knownas un modello lineare di probabilità e può essere usato come un modo per descrivere probabilità condizionali. Tuttavia, gli errori (cioè residui) dal modello di probabilità lineare violano la omoschedasticità e la normalità di errori ipotesi di regressione OLS, con conseguente errori standard validi e test di ipotesi. Per una discussione più approfondita di questi ed altri problemi con il modello di probabilità lineare vedere lungo (1997, p. 38-40). Due-gruppo di analisi discriminante. Metodo multivariata per le variabili di outcome dicotomiche. Hotelling8217s T 2. Il 01 risultato è trasformato in variabile thegrouping, e gli ex predittori si trasformano in variabili di risultato. Questo produrrà una prova generale di importanza, ma non darà i singoli coefficienti per ogni variabile, e non è chiaro fino a che punto ogni quotpredictorquot viene regolata per l'impatto degli altri regressione Probit Di seguito si usa il comando di prugne con il linkprobit sottocomando a correre un modello di regressione probit. Dopo il nome del comando (prugna), la variabile esito (ammettere) è seguita con per rango che indica che rango è un predittore categorica, seguito da con gre GPA. indicando che il GRE predittori e GPA devono essere trattati come continuo. L'output del comando prugna è suddiviso in diverse sezioni, ognuna delle quali è discussi di seguito l'uscita di prugne è etichettato come una regressione ordinale, tuttavia, possiamo confermare di seguito (si veda la nota nella prossima serie di tabelle) che la funzione di collegamento probit era usato. Si noti che un modello con un risultato binario può essere vista come un caso particolare di un modello ordinale, dove ci sono solo due categorie. La tabella sopra riportata include frequenze per le due variabili categoriali ammettono (il risultato) e rango (uno dei predittori). Possiamo vedere che tutte le 400 osservazioni sono stati utilizzati. Meno osservazioni sarebbero stati utilizzati se qualcuno dei nostri variabili avevano valori mancanti. La tabella denominata modello Lato informazioni comprendono due file, uno per il modello abbiamo richiesto (etichettata finale) ed uno per un cosiddetto modello nullo (Intercept soltanto). I -2 verosimiglianze log possono essere utilizzati per confrontare il modello in forma dei due modelli. La finale probabilità -2 log per il nostro modello è 452,057. Il modello di intercetta-solo ha una probabilità -2 registro di 493,620. La statistica test chi-quadrato del 41,563 è la differenza tra i due -2 verosimiglianze di registro, questo test statistico, con 5 gradi di libertà e di un p-value associato inferiore a 0.0004 ci dice che l'attuale modello si adatta meglio di un modello con solo un'intercettazione. I valori pseudo-R-squared sono un altro modo per valutare il modello in forma. Esistono tre diversi pseudo-R-squared sono dati in uscita, ma molte misure diverse di pseudo-R squareds. Tutti tentativo di fornire informazioni simili a quelle fornite da R-squared in regressione OLS tuttavia, nessuno di loro può essere interpretata esattamente come R-squared in regressione OLS viene interpretato. Per una discussione di vari pseudo-R squareds vedere lungo e Freese (2006) o la nostra pagina delle FAQ Quali sono pseudo-R squareds Nella tabella etichettati stime dei parametri, vediamo i coefficienti, i loro errori standard, Wald statistica test con df associati e p-value, e l'intervallo di confidenza 95 dei coefficienti. Le variabili gre. GPA. e le modalità di rango 1 e rango 2 sono statisticamente significative. I coefficienti di regressione probit danno la variazione del punteggio z (chiamato anche l'indice probit) per una variazione unitaria nella predictor. For un incremento unitario di gre. lo z-score aumenta di 0.001. Per ogni aumento di una unità in GPA. lo z-score aumenta di 0.478. I termini per rango hanno un'interpretazione leggermente diversa. Ad esempio, dopo aver frequentato un istituto universitario con un rango di 1, rispetto a un istituto con un rango di 4 (gruppo di riferimento), aumenta il punteggio z per 0,936. Si consiglia inoltre di testare l'effetto complessivo di rango. possiamo farlo tramite il sottocomando di prova. Il sottocomando test è seguito dal nome della variabile vogliamo prova (cioè rango), e quindi un valore per ciascun livello di quella variabile (compresa la categoria omessa). La prima linea del test sottocomando rango 1 0 0 0 indica che vogliamo testare che il coefficiente di rango 1 è 0. Per eseguire un grado multiplo di test di libertà, includiamo più righe nel sottocomando di prova, tutti tranne l'ultima riga è separato da un punto e virgola. La seconda e la terza fila indicano che vogliamo testare che i coefficienti di rango 2 e grado 3 sono uguali a 0. Si noti che non vi è alcuna necessità di includere una riga per la quarta categoria di rango. Poiché i modelli sono uguali, la maggior parte della potenza prodotta dal comando prugna sopra è la stessa di prima. L'unica differenza è l'uscita supplementare prodotta dal sottocomando prova, solo questa porzione di uscita è mostrato sotto. La prima tabella di cui sopra, con l'etichetta coefficienti di contrasto, mostra le ipotesi che stiamo testando. La seconda tabella riporta i risultati di contrasto, perché ogni riga nelle prove sottocomando test che un coefficiente nel modello è pari a 0, queste stime, errori standard, ecc sono uguali a quelli dalla tabella etichettato Stime dei parametri nella parte principale di Il risultato. L'unica differenza in questa tabella è che la colonna etichettata test che dà esplicitamente l'ipotesi nulla, nel nostro caso, che ciascuno dei termini è uguale a 0. (Nota che altre ipotesi nulla può essere specificato.) Il tavolo finale prodotta dalla test sottocomando, etichettati risultati dei test, dà il grado multiplo di prova la libertà che ci interessa, la statistica test Wald di 21,361, con 3 gradi di libertà, e un valore p associato inferiore a 0.001, ci dice che l'effetto complessivo di rango è statisticamente significativa. La tabella con l'etichetta Stime parametro fornisce test di ipotesi per le differenze tra ogni livello di grado e la categoria di riferimento. Possiamo usare il sottocomando test per verificare le differenze tra gli altri livelli di rango. Ad esempio, potremmo voler verificare una differenza di coefficienti per il rango 2 e classificare 3. Nella sintassi di seguito abbiamo aggiunto un secondo sottocomando di prova. Questa volta, i valori indicati sono 0 1 0 -1 indica che vogliamo calcolare la differenza tra i coefficienti di rango 2 e grado 3 (vale a dire, rango 2 8211 rango 3). Anche l'uscita dal modello, così come l'uscita associata al primo sottocomando prova sono identici a quelli sopra indicati, quindi sono omesse. Nella tabella etichettato Risultati contrasto vediamo la differenza nei coefficienti (cioè 0,397). La statistica test Wald di 5.573, con un grado di libertà, e associata p-valore inferiore a 0,02, indica che la differenza tra i coefficienti di rango 2 e grado 3 è statisticamente significativa. Perché solo una stima è stato specificato nel sottocomando di prova, il grado multiplo di test di libertà (cioè la tabella dei risultati del test) non viene stampato. Le cose da considerare celle vuote o piccole cellule: si dovrebbe verificare per le celle vuote o piccoli facendo un campo incrociato tra i predittori categoriali e la variabile risultato. Se una cella ha pochissimi casi (un piccolo cellulari), il modello può diventare instabile o potrebbe non funzionare affatto. Separazione o quasi-separatore (chiamato anche previsione perfetta), una condizione in cui il risultato non varia in alcuni livelli delle variabili indipendenti. Vedi la nostra pagina FAQ: Qual è la separazione completa o quasi completa in regressione logisticprobit e come abbiamo a che fare con loro per informazioni sui modelli con perfetta previsione. Dimensioni del campione: modelli Sia logit e probit richiedono più casi di regressione OLS poiché utilizzano tecniche di stima di massima verosimiglianza. E 'anche importante tenere presente che quando il risultato è rara, anche se l'insieme di dati globale è grande, può essere difficile stimare un modello logit. Pseudo-R-squared: Molte diverse misure di pseudo-R-squared esistere. Tutti tentativo di fornire informazioni simili a quelle fornite da R-squared in regressione OLS tuttavia, nessuno di loro può essere interpretata esattamente come R-squared in regressione OLS viene interpretato. Per una discussione di vari pseudo-R squareds vedono lungo e Freese (2006) o la nostra pagina delle FAQ Quali sono pseudo-R squareds Diagnostica: La diagnostica per la regressione logistica sono diverse da quelle per le OLS la regressione. Per una discussione di diagnostica modello per la regressione logistica, vedere Hosmer e Lemeshow (2000, capitolo 5). Si noti che la diagnostica fatto per la regressione logistica sono simili a quelle fatte per la regressione probit. Riferimenti Hosmer, D. 038 Lemeshow, S. (2000). Applied regressione logistica (Second Edition). New York: John Wiley Sons, Inc. 038 lungo, J. Scott (1997). I modelli di regressione per le variabili dipendenti categoriali e limitato. Thousand Oaks, CA: Sage Publications. MultinomialLogistic regressione Stata Analisi dei dati Esempi informazioni versione. Codice in questa pagina è stato testato in Stata 12. regressione logistica multinomiale è usato per modellare variabili di risultato nominali, in cui le probabilità di registro dei risultati sono modellati come combinazione lineare delle variabili predittive. Si prega di notare: Lo scopo di questa pagina è quello di mostrare come utilizzare i vari comandi di analisi dei dati. Esso non copre tutti gli aspetti del processo di ricerca, che sono tenuti ai ricercatori di fare. In particolare, non copre la pulizia dei dati e il controllo, la verifica di ipotesi, la diagnostica modello e potenziali analisi di follow-up. Esempi di regressione logistica multinomiale Esempio 1. People8217s scelte professionali potrebbero essere influenzati dalle loro occupazioni parents8217 e il proprio livello di istruzione. Siamo in grado di studiare la relazione di scelta dell'occupazione one8217s con livello di istruzione e l'occupazione father8217s. Le scelte professionali saranno la variabile esito che si compone di categorie di occupazioni. Esempio 2. Un biologo può essere interessati a scelte alimentari che fanno alligatori. alligatori adulti potrebbero avere preferenze diverse da quelle giovani. La variabile esito qui saranno i tipi di cibo, e le variabili predittive potrebbe essere dimensioni degli alligatori e altre variabili ambientali. Esempio 3. Entrata studenti delle scuole superiori a fare scelte di programma tra programma generale, il programma professionale e programma accademico. La loro scelta potrebbe essere modellato utilizzando il loro punteggio di scrittura e del loro status economico sociale. Descrizione dei dati per il nostro esempio l'analisi dei dati, abbiamo deciso di ampliare il terzo esempio utilizzando il set di dati hsbdemo. Let8217s prima leggere i dati. L'insieme di dati contiene variabili su 200 studenti. La variabile risultato è prog. tipo di programma. Le variabili predittive sono stato sociale economica, ses, una categorica punteggio variabile e scrittura a tre livelli, scrivere, una variabile continua. Let8217s iniziare con ottenere alcune statistiche descrittive delle variabili di interesse. Metodi di analisi si potrebbe considerare Multinomiale regressione logistica: il focus di questa pagina. Multinomiale probit regressione: simile alla regressione logistica multinomiale, ma con termini di errore normali indipendenti. Multiple-gruppo di analisi discriminante: Metodo multivariata per le variabili di outcome multinomiali regressione logistica multipla analisi, uno per ogni coppia di risultati: Un problema con questo approccio è che ogni analisi è potenzialmente eseguito su un campione diverso. L'altro problema è che senza limitare i modelli logistici, siamo in grado di finire con la probabilità di scegliere tutte le possibili categorie di esito maggiore di 1. Numero Crollare di categorie per due e poi facendo una regressione logistica: Questo approccio soffre di perdita di informazioni e modifiche le domande di ricerca originali a quelle molto diversi. Ordinale regressione logistica: Se la variabile esito è veramente ordinata e se soddisfa anche l'assunzione di probabilità proporzionali, per poi passare a Regressione ordinale logistica renderà il modello più parsimonioso. specifici alternativa multinomiale probit regressione: consente diverse strutture errore quindi permette di rilassarsi l'indipendenza delle alternative irrilevanti (IIA, vedi sotto quotThings a Considerquot) ipotesi. Ciò richiede che la struttura dei dati sia scelta specifica. Nidificati modello logit: rilassa anche l'assunzione IIA, richiede anche la struttura dei dati sia a scelta specifica. Multinomiale regressione logistica seguito utilizzare il comando mlogit stimare un modello di regressione logistica multinomiale. L'i. prima ses indica che ses è una variabile indicatore (cioè variabile categorica), e che dovrebbe essere inclusa nel modello. Abbiamo usato anche la possibilità di base quot quot per indicare la categoria vorremmo utilizzare per il gruppo di confronto di base. Nel modello di seguito, abbiamo scelto di utilizzare il tipo di programma accademico la categoria di riferimento. In uscita sopra, per prima cosa vedere il registro di iterazione, che indica quanto velocemente il modello convergente. La probabilità di registro (-179,98173) può essere utilizzato nei confronti di modelli annidati, ma abbiamo won8217t mostrano un esempio di modelli a confronto Qui il of48.23 chi-quadrato del rapporto di verosimiglianza con un valore p 0,0001 lt ci dice che il nostro modello nel suo complesso si adatta molto meglio di un modello vuoto (cioè un modello senza predittori) l'uscita è al di sopra di due parti, etichettati con le categorie di risultato prog variabile. Esse corrispondono ai due equazioni seguenti: dove (b) 8217s sono i coefficienti di regressione. Un aumento una unità della scrittura variabile è associata con un .058 diminuzione dei log odds relativi di essere nel programma generale vs. programma accademico. Un aumento di un unità nella scrittura variabile è associato ad una 0,1136 diminuzione delle probabilità di log relativi di essere nel programma di vocazione vs. programma accademico. Le probabilità di log relativi di essere in generale contro il programma nel programma accademico diminuirà di 1.163 se in movimento dal livello più basso di ses (SES 1) per il massimo livello di SES (SES 3). Il rapporto tra la probabilità di scegliere una categoria risultato sopra la probabilità di scegliere la categoria di riferimento è spesso indicato come rischio relativo (ed è anche talvolta indicato come quote come abbiamo appena descritto usato per i parametri di regressione sopra). Il rischio relativo può essere ottenuto exponentiating le equazioni lineari sopra, ottenendo coefficienti di regressione che sono rapporti di rischio relativo per una variazione unitaria nella variabile predittore. Siamo in grado di utilizzare l'opzione RRR per mlogit comando per visualizzare i risultati della regressione in termini di rapporti di rischio relativo. Il rapporto rischio relativo per un aumento di un unità della scrittura variabile è 0,9437 (exp (-. 0.579.284) tra l'uscita del primo comando mlogit sopra) per essere in programma generale vs. programma accademico. Il relativo rapporto di rischio di commutazione da ses 1 a 3 è 0,3126 per essere nel programma generale contro programma accademico. In altre parole, il rischio atteso di rimanere nel programma generale è più basso per i soggetti che sono ad alto contenuto di SES. Siamo in grado di testare per un effetto complessivo di SES con il comando di prova. Di seguito si vede che l'effetto complessivo di ses è statisticamente significativa. Più in particolare, si può anche verificare se l'effetto della 3.ses nel predire generale contro accademico è pari l'effetto di 3.ses nel predire vocazione vs. accademico di utilizzare nuovamente il comando test. Il test mostra che gli effetti non sono statisticamente diversi tra loro. È inoltre possibile utilizzare probabilità previste per aiutarvi a capire il modello. È possibile calcolare probabilità previste utilizzando il comando margini. Di seguito si usa il comando margini per calcolare la probabilità prevista di scegliere ogni tipo di programma ad ogni livello di SES. tenendo tutte le altre variabili nel modello a loro mezzi. Dato che ci sono tre possibili risultati, avremo bisogno di usare il comando margini tre volte, una per ogni valore di risultato. Possiamo usare il comando marginsplot per tracciare probabilità previste dal SES per ogni categoria di prog. Trame create da marginsplot sono basati sul margine dell'ultimo comando di marcia. Inoltre, siamo in grado di combinare le tre marginsplots in un grafico per facilitare il confronto con il grafico di comando combinare. As it is generated, each marginsplot must be given a name, which will be used by graph combine . Additionally, we would like the y-axes to have the same range, so we use the ycommon option with graph combine . Another way to understand the model using the predicted probabilities is to look at the averaged predicted probabilities for different values of the continuous predictor variable write . averaging across levels of ses . Sometimes, a couple of plots can convey a good deal amount of information. Below, we plot the predicted probabilities against the writing score by the level of ses for different levels of the outcome variable. We may also wish to see measures of how well our model fits. This can be particularly useful when comparing competing models. The user-written command fitstat produces a variety of fit statistics. You can find more information on fitstat and download the program by using command search fitstat in Stata (see How can I use the search command to search for programs and get additional help for more information about using search ). Things to consider The Independence of Irrelevant Alternatives (IIA) assumption: roughly, the IIA assumption means that adding or deleting alternative outcome categories does not affect the odds among the remaining outcomes. Test of the IIA assumption can be performed by using the Stata command mlogtest, iia . However, as of April 23, 2010, mlogtest, iia does not work with factor variables. There are alternative modeling methods that relax the IIA assumption, such as alternative-specific multinomial probit models or nested logit models. Diagnostics and model fit: unlike logistic regression where there are many statistics for performing model diagnostics, it is not as straightforward to do diagnostics with multinomial logistic regression models. Model fit statistics can be obtained via the fitstat command. For the purpose of detecting outliers or influential data points, one can run separate logit models and use the diagnostics tools on each model. Pseudo-R-Squared: the R-squared offered in the output is basically the change in terms of log-likelihood from the intercept-only model to the current model. It does not convey the same information as the R-square for linear regression, even though it is still quotthe higher, the betterquot. Sample size: multinomial regression uses a maximum likelihood estimation method, it requires a large sample size. It also uses multiple equations. This implies that it requires an even larger sample size than ordinal or binary logistic regression. Complete or quasi-complete separation: Complete separation implies that the outcome variable separates a predictor variable completely, leading to perfect prediction by the predictor variable. Unlike running a logit model, Stata does not offer a warning when this happens. Instead it continues to compute iteratively and requires a manual quit to stop the process. Perfect prediction means that only one value of a predictor variable is associated with only one value of the response variable. But you can tell from the output of the regression coefficients that something is wrong. You can then do a two-way tabulation of the outcome variable with the problematic variable to confirm this and then rerun the model without the problematic variable. Empty cells or small cells: You should check for empty or small cells by doing a cross-tabulation between categorical predictors and the outcome variable. If a cell has very few cases (a small cell), the model may become unstable or it might not even run at all. Perhaps your data may not perfectly meet the assumptions and your standard errors might be off the mark. You might wish to see our page that shows alternative methods for computing standard errors that Stata offers. Sometimes observations are clustered into groups (e. g. people within families, students within classrooms). In such cases, you may want to see our page on non-independence within clusters . Riferimenti

No comments:

Post a Comment