Monday 3 April 2017

Lauf Ols Regression In Stata Forex


Wie schlecht ist es, gepoolte OLS anstelle von festen Effekten zu verwenden, wenn Sie 7 Jahre Panel-Daten haben Von dem, was ich verstanden habe, ist das Risiko, dass die Koeffizienten mit dem Fehler-Term korreliert werden, so dass die Schätzungen voreingenommen. Es wird eine Form der Endogenität geben. Würde es helfen, wenn ich Jahr Dummies in der gepoolten OLS-Regression einschließen Es würde immer noch nicht die Auswirkungen der variierenden Intercept in der individuellen Dimension zu erfassen, rechts Eine meiner wichtigsten erklärenden Variablen ist auf der 5-Ebene in FE-Regression signifikant. In der gepoolten OLS ist es auf dem 0,001-Niveau signifikant. Ist dieses Ergebnis vernachlässigbar oder könnte es noch mit der Reservierung verwendet werden, dass es überschätzt wird, frage ich dies, weil die meisten der geschätzten Parameter sind stark signifikant in der gepoolten OLS-Regression. Außerdem werden zwei meiner erklärenden Variablen, die konstant sind, in der FE-Regression gelöscht. Obwohl sie von sekundärem Interesse sind, tragen sie dazu bei, eine ganze Menge der Variation der abhängigen Variablen zu erklären. (Die Probe ist btw nicht kongruent mit einem zufälligen Effekte-Modell). Gibt es eine Möglichkeit, zu entscheiden, welches Modell könnte mehr geeignet sein Wenn Sie einige Dinge, die ich sollte im Auge behalten, wenn die Umsetzung der Modelle wäre ich sehr dankbar, sie zu hören, fragte Jun 18 14 um 9: 47NOTICE: Die IDRE Statistische Beratung Gruppe werden Migration der Website auf das WordPress CMS im Februar, um die Wartung und die Schaffung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen im Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Regression mit Stata Kapitel 1 - Einfache und Multiple Regression Kapitelübersicht 1.0 Einleitung 1.1 Eine erste Regressionsanalyse 1.2 Untersuchen von Daten 1.3 Einfache lineare Regression 1.4 Multiple Regression 1.5 Transformation von Variablen 1.6 Zusammenfassung 1.7 Selbstevaluation 1.8 Für weitere Informationen Dieses Buch besteht aus vier Kapiteln, die eine Vielzahl von Themen über die Verwendung von Stata für die Regression umfassen. Wir sollten betonen, dass dieses Buch ist über quotdata analysisquot und dass es zeigt, wie Stata kann für die Regressionsanalyse verwendet werden, im Gegensatz zu einem Buch, das die statistische Basis der multiplen Regression umfasst. Wir gehen davon aus, dass Sie mindestens einen Statistikkurs für die Regressionsanalyse besucht haben und dass Sie ein Regressionsheft haben, das Sie als Referenz verwenden können (siehe Regression mit Stata-Seite und unsere Statistik-Bücher für Darlehen für empfohlene Regressionsanalyse-Bücher). Dieses Buch ist so konzipiert, dass Sie Ihr Wissen über Regression, kombinieren Sie es mit Anweisung auf Stata, um durchführen, verstehen und interpretieren Regressionsanalysen. Dieses erste Kapitel behandelt Themen in einfacher und multipler Regression sowie die unterstützenden Aufgaben, die für die Analyse Ihrer Daten wichtig sind. Daten überprüfen, sich mit Ihrer Datendatei vertraut machen und die Verteilung Ihrer Variablen untersuchen. Wir veranschaulichen die Grundlagen der einfachen und multiplen Regression und zeigen, wie wichtig es ist, Ihre Daten zu überprüfen, zu überprüfen und zu verifizieren, bevor Sie die Ergebnisse Ihrer Analyse akzeptieren. Im Allgemeinen hoffen wir zu zeigen, dass die Ergebnisse Ihrer Regressionsanalyse irreführend sein können, ohne dass weitere Daten geprüft werden müssen, die Beziehungen zeigen, die eine zufällige Analyse übersehen könnte. In diesem Kapitel und in den nachfolgenden Kapiteln werden wir eine Datendatei verwenden, die durch zufälliges Sampeln von 400 Grundschulen aus dem California Department of Educations API 2000 Datensatz erstellt wurde. Diese Datendatei enthält ein Maß für die schulische Leistungsfähigkeit sowie andere Attribute der Grundschulen wie Klassenzahl, Einschreibung, Armut usw. Sie können diese Daten über das Web über Stata mit dem Befehl Stata verwenden Unten gezeigt. Hinweis: Geben Sie nicht den führenden Punkt in den Befehl ein - der Punkt ist eine Konvention, um anzuzeigen, dass die Anweisung ein Stata-Befehl ist. Sobald Sie die Datei gelesen haben, möchten Sie wahrscheinlich eine Kopie davon auf Ihrem Computer zu speichern (so dass Sie nicht brauchen, um es über das Internet jedes Mal lesen). Lets sagen, Sie verwenden Windows und möchten die Datei in einem Ordner mit dem Namen c: regstata (Sie können einen anderen Namen wählen, wenn Sie möchten). Zuerst können Sie diesen Ordner innerhalb von Stata mit dem Befehl mkdir erstellen. Mit dem Befehl cd können wir dann in dieses Verzeichnis wechseln. Und wenn Sie die Datei speichern, wird sie im Ordner c: regstata gespeichert. Speichern Sie die Datei als elemapi. Nun wird die Datendatei als c: regstataelemapi. dta gespeichert und Sie können Stata beenden und die Datendatei wäre noch vorhanden. Wenn Sie die Datei zukünftig verwenden möchten, verwenden Sie einfach den Befehl cd, um in das Verzeichnis c: regstata (oder was auch immer Sie es genannt haben) zu wechseln und dann die elemapi-Datei zu verwenden. 1.1 Eine erste Regressionsanalyse Ermöglicht den Tauchgang direkt und führt eine Regressionsanalyse mit den Variablen api00 durch. Acsk3. Mahlzeiten und voll. Diese messen die akademische Leistung der Schule (api00), die durchschnittliche Klassengröße im Kindergarten bis zur 3. Klasse (acsk3), der Anteil der Schüler, die freie Mahlzeiten erhalten (Mahlzeiten) - ein Indikator für die Armut und der Anteil der Lehrkräfte Volle Unterrichtsqualifikationen (voll). Wir erwarten, dass eine bessere akademische Leistung mit niedrigeren Klassengrösse, weniger Studenten, die freie Mahlzeiten und einen höheren Prozentsatz der Lehrer mit voller Unterrichtsausweis verbunden sind. Im Folgenden zeigen wir den Stata-Befehl zum Testen dieses Regressionsmodells, gefolgt von der Stata-Ausgabe. Lets Fokus auf die drei Prädiktoren, ob sie statistisch signifikant sind, und wenn ja, die Richtung der Beziehung. Die durchschnittliche Klassengröße (acsk3.b-2.68) ist nicht statistisch signifikant am 0,05-Niveau (p0.055), sondern nur so. Der Koeffizient ist negativ, was darauf hindeuten würde, dass eine größere Klassengröße mit einer niedrigeren akademischen Leistung zusammenhängt - was wir erwarten würden. Als nächstes ist der Effekt der Mahlzeiten (b-3.70, p.000) signifikant und sein Koeffizient ist negativ, was anzeigt, dass je größer der Anteil der Schüler, die freie Mahlzeiten erhalten, desto niedriger die akademische Leistung. Bitte beachten Sie, dass wir nicht sagen, dass freie Mahlzeiten verursachen niedrigere akademische Leistung. Die Variable der Mahlzeiten hängt stark vom Einkommensniveau ab und fungiert mehr als Proxy für Armut. So sind höhere Armutsniveaus mit einer niedrigeren akademischen Leistung verbunden. Dieses Ergebnis macht auch Sinn. Schließlich scheint der Prozentsatz der Lehrkräfte mit vollständigen Zeugnissen (voll. B0.11, S.232) nicht mit der akademischen Leistung in Zusammenhang zu stehen. Dies scheint zu zeigen, dass der Prozentsatz der Lehrer mit voller Anmeldeinformationen nicht ein wichtiger Faktor bei der Vorhersage der akademischen Leistung - dieses Ergebnis war etwas unerwartet. Wenn wir diese Ergebnisse annehmen und sie zur Veröffentlichung aufschreiben, würden wir schließen, dass niedrigere Klassengrößen auf höhere Leistungen bezogen sind, dass weniger Schüler, die freie Mahlzeiten erhalten, mit höherer Leistung assoziiert sind und dass der Prozentsatz der Lehrer mit voller Anmeldeinformation war Nicht im Zusammenhang mit der akademischen Leistung in den Schulen. Bevor wir dies für die Veröffentlichung schreiben, sollten wir eine Reihe von Kontrollen durchführen, um sicherzustellen, dass wir fest hinter diesen Ergebnissen stehen können. Wir beginnen, indem wir uns mit der Datendatei vertraut machen, die vorläufige Datenprüfung durchführen und nach Fehlern in den Daten suchen. 1.2 Überprüfen der Daten Zuerst können Sie mit dem Befehl beschreiben, um mehr über diese Datendatei zu erfahren. Wir können überprüfen, wie viele Beobachtungen es hat und sehen die Namen der Variablen enthält. Um dies zu tun, geben wir einfach Wir werden nicht in alle Details dieser Ausgabe gehen. Beachten Sie, dass es 400 Beobachtungen und 21 Variablen gibt. Wir haben Variablen über die akademische Leistung in den Jahren 2000 und 1999 und die Veränderung der Leistung, api00. Api99 und Wachstum. Wir haben auch verschiedene Merkmale der Schulen, z. B. Klassengröße, Elternbildung, Prozent der Lehrkräfte mit Voll - und Notschulabschluss und Anzahl der Schüler. Beachten Sie, dass, wenn wir unsere ursprüngliche Regressionsanalyse taten es sagte, dass es 313 Beobachtungen, aber die beschreiben Befehl zeigt, dass wir 400 Beobachtungen in der Datei haben. Wenn Sie mehr über die Datendatei erfahren möchten, können Sie alle oder einige der Beobachtungen auflisten. Nachstehend werden die ersten fünf Beobachtungen aufgelistet. Das nimmt viel Platz auf der Seite ein, gibt uns aber nicht viele Informationen. Die Liste der ersten 10 Beobachtungen für die Variablen, die wir in unserer ersten Regressionsanalyse betrachteten, ist eine Liste der ersten 10 Beobachtungen. Wir sehen, dass unter den ersten 10 Beobachtungen, haben wir vier fehlende Werte für Mahlzeiten. Es ist wahrscheinlich, dass die fehlenden Daten für Mahlzeiten etwas damit zu tun haben, dass die Anzahl der Beobachtungen in unserer ersten Regressionsanalyse 313 und nicht 400 war. Ein weiteres nützliches Werkzeug für das Lernen über Ihre Variablen ist der Codebuchbefehl. Lets do Codebuch für die Variablen, die wir in die Regressionsanalyse, sowie die Variable yrrnd enthalten. Wir haben einige Kommentare zu dieser Ausgabe in eckigen Klammern und fett gedruckt. Der Codebuch-Befehl hat eine Anzahl von Besonderheiten aufgedeckt, die einer weiteren Prüfung würdig sind. Mit dem Befehl summarize können Sie mehr über diese Variablen erfahren. Wie unten gezeigt, zeigt der Zusammenfassungsbefehl auch die große Anzahl von fehlenden Werten für Mahlzeiten (400 - 315 85) und das ungewöhnliche Minimum für acsk3 von -21. Eine ausführlichere Zusammenfassung für acsk3. In Stata gibt das Komma nach der Variablenliste an, dass Optionen folgen, in diesem Fall ist die Option Detail. Wie Sie unten sehen können, gibt die Detailoption Ihnen die Perzentile, die vier größten und kleinsten Werte, die Maße der zentralen Tendenz und der Varianz, etc. Beachten Sie, dass zusammenfassen. Und andere Befehle, können abgekürzt werden: Wir könnten sum acsk3, d eingegeben haben. Es scheint, als ob einige der Klassengrßen irgendwie negativ wurden, als ob ein negatives Vorzeichen falsch eingegeben wurde. Lassen Sie uns eine tabellarische Tabelle der Klasse zu sehen, ob dies plausibel erscheint. In der Tat, es scheint, dass einige der Klasse Größen irgendwie negativen Vorzeichen vor ihnen gesetzt. Schauen wir uns die Schule und Bezirk Zahl für diese Beobachtungen zu sehen, wenn sie aus dem gleichen Bezirk kommen. Tatsächlich kommen sie alle aus dem Distrikt 140. Betrachten wir alle Beobachtungen für den Distrikt 140. Alle Beobachtungen aus dem Distrikt 140 scheinen dieses Problem zu haben. Wenn Sie ein solches Problem finden, möchten Sie zurück zur ursprünglichen Quelle der Daten, um die Werte zu überprüfen. Wir müssen zeigen, dass wir diesen Fehler zu Illustrationszwecken hergestellt haben und dass die tatsächlichen Daten kein solches Problem hatten. Lets vortäuschen, dass wir mit Bezirk 140 überprüft und es gab ein Problem mit den Daten gibt, ein Bindestrich wurde versehentlich vor der Klasse Größen gesetzt, die sie negativ. Wir machen eine Notiz, um diese zu beheben Lets fortsetzen Überprüfung unserer Daten. Werfen wir einen Blick auf einige grafische Methoden für die Prüfung von Daten. Für jede Variable ist es sinnvoll, diese mit Hilfe eines Histogramms, eines Kastenplots und einer Stamm-und-Blatt-Darstellung zu inspizieren. Diese Diagramme können Sie Informationen über die Form Ihrer Variablen besser als einfache numerische Statistiken können. Wir wissen bereits über das Problem mit acsk3. Aber sehen, wie diese grafischen Methoden das Problem mit dieser Variable aufgedeckt haben würde. Zuerst zeigen wir ein Histogramm für acsk3. Dies zeigt uns die Beobachtungen, wo die durchschnittliche Klassengröße negativ ist. Ebenso hätte ein Boxplot diese Beobachtungen auch auf unsere Aufmerksamkeit gerichtet. Sie können die außenliegenden negativen Beobachtungen Weg am unteren Rand des Boxplot sehen. Schließlich hätte ein Stiel-und-Blatt-Plot auch dazu beigetragen, diese Beobachtungen zu identifizieren. Dieses Diagramm zeigt die genauen Werte der Beobachtungen, was darauf hinweist, dass es drei -21s, zwei -20s und eine -19 gab. Es empfiehlt sich, alle diese Graphen für die Variablen, die Sie analysieren werden, zu plotten. Wir werden auf Grund von Raumbetrachtungen, die diese Graphen für alle Variablen zeigen, weggelassen. Bei der Untersuchung der Variablen schien das Stamm-und-Blatt-Plot für voll erschienen aber eher ungewöhnlich. Bisher haben wir mit dieser Variable nichts Problematisches gesehen, aber sehen Sie sich den Stiel - und Blatt-Plot für voll unten an. Es zeigt 104 Beobachtungen, bei denen der Prozentsatz mit einem vollen Berechtigungsnachweis kleiner als eins ist. Dies ist mehr als 25 der Schulen, und scheint sehr ungewöhnlich. Schauen wir uns die Häufigkeitsverteilung von full an, um zu sehen, ob wir dies besser verstehen können. Die Werte gehen von 0,42 auf 1,0, springen dann auf 37 und steigen von dort aus hoch. Es scheint, als ob einige der Prozentsätze tatsächlich als Proportionen, z. B. 0.42 wurde anstelle von 42 oder 0.96 eingegeben, die wirklich 96 sein sollten. Lets sehen, aus welchem ​​Bezirk diese Daten stammen. Wir bemerken, daß alle 104 Beobachtungen, bei denen die Vollzahl kleiner oder gleich Eins war, aus dem Distrikt 401 stammten. Wie viele Beobachtungen sich im Bezirk 401 mit dem Zählbefehl befinden, und wir sehen, daß Bezirk 401 104 Beobachtungen aufweist. Alle Beobachtungen aus diesem Bezirk scheinen als Prozentsätze anstelle von Prozentsätzen aufgezeichnet zu werden. Wir wollen noch einmal betonen, dass es sich hierbei um ein Vorwandproblem handelt, das wir in die Daten zur Veranschaulichung eingefügt haben. Wenn dies ein wirkliches Lebensproblem wäre, würden wir mit der Quelle der Daten überprüfen und das Problem überprüfen. Wir werden eine Notiz machen, um dieses Problem auch in den Daten zu beheben. Eine weitere nützliche graphische Technik zum Screening Ihrer Daten ist eine Scatterplot-Matrix. Während dies wahrscheinlich als diagnostisches Werkzeug, das nach Nichtlinearitäten und Ausreißern in Ihren Daten sucht, relevant ist, kann es auch ein nützliches Daten-Screening-Tool sein, das möglicherweise Informationen in den gemeinsamen Verteilungen Ihrer Variablen enthüllt, die aus der Untersuchung univariater Verteilungen nicht ersichtlich werden . Betrachten wir die Scatterplot-Matrix für die Variablen in unserem Regressionsmodell. Dies offenbart die Probleme, die wir bereits identifiziert haben, d. h. die negativen Klassengrößen und der Prozentanteil der Vollmacht werden als Proportionen eingegeben. Wir haben drei Probleme in unseren Daten identifiziert. Es gibt viele fehlende Werte für die Mahlzeiten. Es wurden Negative zufällig eingefügt, bevor einige der Klassengrößen (acsk3) und mehr als ein Viertel der Werte für Vollprofile anstelle von Prozentsätzen waren. Die korrigierte Version der Daten heißt elemapi2. Wir können diese Datendatei verwenden und unsere Analyse wiederholen und sehen, ob die Ergebnisse die gleichen sind wie unsere ursprüngliche Analyse. Zuerst können wir unsere ursprüngliche Regressionsanalyse wiederholen. Nun können wir die korrigierte Datendatei verwenden und die Regressionsanalyse wiederholen. Wir sehen einen gewissen Unterschied in den Ergebnissen. In der ursprünglichen Analyse (oben) war acsk3 nahezu signifikant, aber in der korrigierten Analyse (unten) zeigen die Ergebnisse diese Variable nicht signifikant, möglicherweise aufgrund der Fälle, in denen die Klassengröße gegeben wurde Negativen Wert. Ebenso war der Prozentsatz der Lehrer mit vollständigem Anmeldeinformationen nicht signifikant in der ursprünglichen Analyse, ist aber signifikant in der korrigierten Analyse, vielleicht aufgrund der Fälle, in denen der Wert als der Anteil mit voller Anmeldeinformationen statt der Prozent gegeben wurde. Beachten Sie auch, dass die korrigierte Analyse auf 398 Beobachtungen anstelle von 313 Beobachtungen basiert, da die vollständigen Daten für die Mahlzeiten Variable, die viele fehlende Werte hatte erhalten. Von diesem Punkt an werden wir die korrigierten, elemapi2 verwenden. Datendatei. Vielleicht möchten Sie diese auf Ihrem Computer speichern, damit Sie es in zukünftigen Analysen verwenden können. Bisher haben wir einige Themen in Data Checkingverification abgedeckt, aber wir haben nicht wirklich diskutiert Regressionsanalyse selbst. Lets jetzt reden mehr über die Durchführung Regressionsanalyse in Stata. 1.3 Einfache lineare Regression Wir zeigen zunächst einige Beispiele für einfache lineare Regression unter Verwendung von Stata. Bei dieser Art der Regression haben wir nur eine Prädiktorvariable. Diese Variable kann kontinuierlich sein, dh sie kann alle Werte innerhalb eines Bereichs annehmen, zum Beispiel Alter oder Höhe, oder sie kann dichotom sein, was bedeutet, daß die Variable nur einen von zwei Werten, beispielsweise 0 oder 1, annehmen kann Wird die Verwendung von kategorischen Variablen mit mehr als zwei Ebenen in Kapitel 3 behandelt. Es gibt nur eine Antwort oder abhängige Variable, und sie ist kontinuierlich. In Stata wird die abhängige Variable unmittelbar nach dem Regress-Befehl aufgelistet, gefolgt von einer oder mehreren Prädiktorvariablen. Lets untersuchen, die Beziehung zwischen der Größe der Schule und der akademischen Leistung zu sehen, ob die Größe der Schule im Zusammenhang mit der akademischen Leistung. Für dieses Beispiel ist api00 die abhängige Variable und die Registrierung der Prädiktor. Lets Überprüfung dieser Ausgabe ein bisschen mehr sorgfältig. Zuerst sehen wir, dass der F-Test statistisch signifikant ist, was bedeutet, dass das Modell statistisch signifikant ist. Der R-Quadrat von .1012 bedeutet, dass etwa 10 der Varianz von api00 durch das Modell berücksichtigt wird, in diesem Fall registrieren. Der t-Test für die Registrierung ist gleich -6.70 und ist statistisch signifikant, was bedeutet, dass der Regressionskoeffizient für die Anmeldung signifikant von Null verschieden ist. Beachten Sie, dass (-6.70) 2 44.89, die die gleiche ist wie die F-Statistik (mit einigen Rundungsfehler). Der Koeffizient für die Anmeldung beträgt -19998674 oder etwa -2, was bedeutet, dass für eine Ein-Einheit Anstieg der Einschreibung. Würden wir erwarten, dass eine .2-Unit-Abnahme in api00. Mit anderen Worten, eine Schule mit 1100 Studenten würde erwartet, dass ein api Gäste 20 Einheiten niedriger als eine Schule mit 1000 Studenten haben. Die Konstante ist 744.2514, und dies ist der vorhergesagte Wert, wenn die Registrierung gleich Null ist. In den meisten Fällen ist die Konstante nicht sehr interessant. Wir haben eine annotierte Ausgabe vorbereitet, die die Ausgabe von dieser Regression zusammen mit einer Erläuterung von jedem der Elemente darin zeigt. Zusätzlich zum Erhalten der Regressionstabelle kann es nützlich sein, ein Scatterplot der vorhergesagten und der Ergebnisvariablen mit der Regressionslinie, die gezeichnet ist, zu sehen. Nachdem Sie eine Regression ausgeführt haben, können Sie eine Variable, die die vorhergesagten Werte enthält, mit dem Vorhersagebefehl erstellen. Sie können diese Werte an einem beliebigen Punkt nach dem Ausführen eines Regress-Befehls abrufen, aber denken Sie daran, dass, sobald Sie eine neue Regression ausführen, die vorhergesagten Werte auf der letzten Regression basieren. Um vorhergesagte Werte zu erstellen, geben Sie einfach eine Vorhersage ein, und der Name einer neuen Variablen gibt Ihnen die eingegebenen Werte. In diesem Beispiel wird unser neuer Variablenname fv sein. So dass wir tippen Wenn wir den Listenbefehl verwenden, sehen wir, dass für jede Beobachtung ein angepaßter Wert generiert wurde. Im Folgenden können wir ein Scatterplot der Ergebnisvariable, api00 und dem Prädiktor, einschreiben. Wir können Streuung mit lfit kombinieren, um ein Streudiagramm mit gepaßten Werten zu zeigen. Wie Sie sehen, scheinen einige der Punkte Ausreißer zu sein. Wenn Sie die Option mlabel (snum) auf dem Befehl scatter verwenden, können Sie die Schulnummer für jeden Punkt sehen. So können wir z. B. sehen, dass einer der Ausreißer Schule 2910 ist. Wie wir bereits gesehen haben, kann das Vorhersagekommando verwendet werden, um vorhergesagte (angepaßte) Werte nach dem Regress zu erzeugen. Sie können auch Residuen erhalten, indem Sie den Befehl predict verwenden, gefolgt von einem Variablennamen, in diesem Fall e. Mit der Restoption. Dieser Befehl kann verkürzt werden, um e, resid oder e vorhersagen. Die folgende Tabelle zeigt einige der anderen Werte, die mit der Vorhersageoption erstellt werden können. 1.4 Multiple Regression Nun, betrachten wir ein Beispiel der multiplen Regression, in denen wir eine Ergebnis (abhängige) Variable und mehrere Prädiktoren haben. Bevor wir mit unserem nächsten Beispiel beginnen, müssen wir eine Entscheidung bezüglich der Variablen treffen, die wir erstellt haben, weil wir ähnliche Variablen mit unserer multiplen Regression erstellen werden, und wir möchten die Variablen nicht verwirren lassen. Zum Beispiel haben wir in der einfachen Regression eine Variable fv für unsere vorhergesagten (angepaßten) Werte und e für die Residuen erstellt. Wenn wir für unser nächstes Beispiel vorhergesagte Werte erzeugen wollen, könnten wir den vorhergesagten Wert etwas anderes nennen, z. B. Fvmr. Aber das könnte beginnen, verwirrend. Wir könnten die Variablen, die wir erstellt haben, mit drop fv e löschen. Stattdessen können die Daten im Speicher gelöscht und die elemapi2-Datendatei erneut verwendet werden. Wenn wir in den nächsten Kapiteln neue Beispiele anführen, werden wir die vorhandene Datendatei löschen und die Datei wieder neu starten. Für dieses multiple Regressionsbeispiel werden wir die abhängige Variable, api00, zurückrechnen. Auf alle Prädiktorvariablen im Datensatz. Lets untersuchen die Ausgabe aus dieser Regressionsanalyse. Wie bei der einfachen Regression schauen wir auf den p-Wert des F-Tests, um zu sehen, ob das Gesamtmodell signifikant ist. Bei einem p-Wert von null bis vier Dezimalstellen ist das Modell statistisch signifikant. Das R-Quadrat ist 0.8446, was bedeutet, dass etwa 84 der Variabilität von api00 durch die Variablen im Modell berücksichtigt werden. In diesem Fall deutet das eingestellte R-Quadrat darauf hin, dass etwa 84 der Variabilität von api00 durch das Modell berücksichtigt werden, auch wenn die Anzahl der Prädiktorvariablen im Modell berücksichtigt wird. Die Koeffizienten für jede der Variablen geben die Änderungsmenge an, die man in api00 erwarten kann, wenn man eine einheitliche Änderung des Wertes dieser Variablen erhält, vorausgesetzt, daß alle anderen Variablen im Modell konstant gehalten werden. Betrachten wir zum Beispiel die Variable ell. Wir erwarten eine Abnahme von 0,86 in der api00-Wertung für jede Einheitsteigerung in ell. Dass alle anderen Variablen im Modell konstant gehalten werden. Die Interpretation eines Großteils der Ausgabe aus der multiplen Regression ist die gleiche wie für die einfache Regression. Wir haben eine annotierte Ausgabe vorbereitet, die die Ausgabe dieser multiplen Regressionsanalyse genauer erklärt. Sie können sich fragen, was eine 0.86 Änderung in ell wirklich bedeutet, und wie Sie die Stärke dieses Koeffizienten, um den Koeffizienten für eine andere Variable vergleichen können, sagen Mahlzeiten. Um dieses Problem zu lösen, können wir dem regress-Befehl, der Beta genannt wird, eine Option hinzufügen. Was uns die standardisierten Regressionskoeffizienten gibt. Die Beta-Koeffizienten werden von einigen Forschern verwendet, um die relative Stärke der verschiedenen Prädiktoren im Modell zu vergleichen. Da die Beta-Koeffizienten alle in Standardabweichungen gemessen werden, können sie statt der Einheiten der Variablen miteinander verglichen werden. Mit anderen Worten, die Beta-Koeffizienten sind die Koeffizienten, die Sie erhalten würden, wenn die Ergebnisse und Prädiktor-Variablen alle transformierten Standard-Scores, auch als z-Scores, vor dem Ausführen der Regression wurden. Da die Koeffizienten in der Beta-Spalte alle in denselben standardisierten Einheiten liegen, können Sie diese Koeffizienten vergleichen, um die relative Stärke jedes der Prädiktoren zu bestimmen. In diesem Beispiel hat Mahlzeiten den größten Beta-Koeffizienten, -0,66 (in absoluten Wert), und acsk3 hat die kleinste Beta, 0,013. Somit führt eine Standardabweichungszunahme bei den Mahlzeiten zu einer Abweichung von 0,66 Standardabweichung im vorhergesagten api00. Wobei die anderen Variablen konstant gehalten werden. Und ein Standardabweichungsanstieg bei acsk3. Was wiederum zu einer 0,013 Standardabweichungszunahme in dem vorhergesagten api00 führt, wobei die anderen Variablen in dem Modell konstant gehalten werden. Bei der Interpretation dieser Ausgabe, denken Sie daran, dass die Differenz zwischen den Zahlen in der Coef. Spalte und die Beta-Säule in den Maßeinheiten. Zum Beispiel, um den Rohkoeffizienten für ell zu beschreiben würde man sagen, dass eine Ein-Einheit-Abnahme in ell eine .86-Einheitszunahme im vorhergesagten api00 ergeben würde. Für den standardisierten Koeffizienten (Beta) würden Sie sagen, "Ein Standard Abweichung in ell würde eine 0,15 Standardabweichung erhöhen in der vorhergesagten api00.quot Der listcoef Befehl gibt umfangreichere Ausgabe in Bezug auf standardisierte Koeffizienten. Es ist nicht Teil von Stata, aber Sie können es über das Internet wie folgt herunterladen. Und folgen Sie dann den Anweisungen (siehe auch Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Jetzt haben wir listcoef heruntergeladen. Können wir es so ausführen. Vergleichen wir die Regress-Ausgabe mit dem listcoef-Ausgang. Sie werden feststellen, dass die Werte, die in der Coef. T und Pgtt-Werte in beiden Ausgängen gleich sind. Die in der Spalte Beta der Regress-Ausgabe aufgeführten Werte entsprechen den Werten in der bStadXY-Spalte von listcoef. Die bStdX-Spalte gibt die Einheitsänderung in Y an, die mit einer Standardabweichungsänderung in X erwartet wird. Die bStdY-Spalte gibt die Standardabweichungsänderung in Y an, die mit einer Einheitsänderung in X erwartet wird. Die SDofX-Spalte gibt die Standardabweichung jeder Vorhersagevariable an das Model. Zum Beispiel ist der bStdX für ell -21,3, was bedeutet, dass ein Standardabweichungsanstieg in ell zu einer erwarteten Verringerung von 21,3 Einheiten in api00 führen würde. Der bStdY-Wert für ell von -0.0060 bedeutet, dass für eine Einheit, ein Prozent, eine Zunahme der englischsprachigen Lernenden zu erwarten wäre, eine 0,006 Standardabweichungabnahme in api00 erwarten würde. Da die bStdX-Werte in Standardeinheiten für die Prädiktorvariablen sind, können Sie diese Koeffizienten verwenden, um die relative Stärke der Prädiktoren zu vergleichen, wie Sie Beta-Koeffizienten vergleichen würden. Der Unterschied ist, dass BStdX-Koeffizienten als Änderungen in den Einheiten der Ergebnisvariablen statt in standardisierten Einheiten der Ergebnisvariablen interpretiert werden. Zum Beispiel ist die BStdX für Mahlzeiten gegenüber Ell -94 versus -21 oder etwa viermal so groß, dasselbe Verhältnis wie das Verhältnis der Beta-Koeffizienten. Wir haben eine annotierte Ausgabe erstellt, die die Ausgabe von listcoef genauer erklärt. Bisher haben wir uns mit dem Testen einer einzelnen Variablen auf einmal beschäftigt, zum Beispiel mit Blick auf den Koeffizienten für ell und bestimmen, ob dies signifikant ist. Wir können auch Sätze von Variablen unter Verwendung des Testbefehls testen, um festzustellen, ob der Satz von Variablen signifikant ist. Zuerst können wir mit dem Testen einer einzelnen Variable beginnen, ell. Mit dem Testbefehl. Wenn Sie diesen Ausgang mit dem Ausgang der letzten Regression vergleichen, sehen Sie, dass das Ergebnis des F-Tests, 16.67, mit dem Quadrat des Ergebnisses des t-Tests in der Regression übereinstimmt (-4.0832 16.67). Beachten Sie, dass Sie die gleichen Ergebnisse erhalten konnten, wenn Sie die folgenden eingegeben, da Stata standardmäßig auf den Vergleich der Begriff (e), die auf 0 verglichen wird. Vielleicht ein interessanter Test wäre, um zu sehen, wenn der Beitrag der Klasse Größe signifikant ist. Da die Informationen über die Klassengröße in zwei Variablen, acsk3 und acs46 enthalten sind. Wir beide mit dem Testbefehl. Der signifikante F-Test, 3.95, bedeutet, dass der kollektive Beitrag dieser beiden Variablen signifikant ist. Eine Möglichkeit, dies zu denken, besteht darin, dass es einen signifikanten Unterschied zwischen einem Modell mit acsk3 und acs46 im Vergleich zu einem Modell ohne sie gibt, d. h. es gibt einen signifikanten Unterschied zwischen dem quotfullquot-Modell und den quotreduzierten Quotmodellen. Schließlich können Sie im Rahmen einer multiplen Regressionsanalyse die Korrelationen zwischen den Variablen im Regressionsmodell sehen. Sie können dies mit dem korrelieren Befehl wie unten gezeigt tun. Betrachten wir die Korrelationen mit api00. Wir sehen Mahlzeiten und haben die beiden stärksten Korrelationen mit api00. Diese Korrelationen sind negativ, dh, wenn der Wert einer Variablen untergeht, tendiert der Wert der anderen Variablen dazu, nach oben zu gehen. Wissend, dass diese Variablen stark mit api00 assoziiert sind. Könnten wir vorhersagen, dass es sich um statistisch signifikante Prädiktorvariablen im Regressionsmodell handelt. Wir können auch den Befehl pwcorr verwenden, um paarweise Korrelationen durchzuführen. Der wichtigste Unterschied zwischen correlate und pwcorr ist die Art und Weise, in der fehlende Daten behandelt werden. Mit korrelieren. Eine Beobachtung oder ein Fall wird fallengelassen, wenn eine Variable einen fehlenden Wert hat, mit anderen Worten, korrelieren verwendet listwise. Auch casewise genannt, Streichung. Pwcorr verwendet paarweises Löschen, dh die Beobachtung wird nur gelöscht, wenn ein fehlender Wert für das Paar der Variablen korreliert ist. Zwei Optionen, die Sie mit pwcorr verwenden können. Aber nicht mit korrelieren. Sind die sig-Option, die die Signifikanzwerte für die Korrelationen und die obs-Option, die die Anzahl der Beobachtungen in der Korrelation verwendet geben wird geben. Eine solche Option ist bei corr nicht notwendig, da Stata die Anzahl der Beobachtungen oben am Ausgang anzeigt. 1.5 Transformation von Variablen Früher konzentrierten wir uns darauf, Ihre Daten auf mögliche Fehler zu überprüfen. Im nächsten Kapitel werden wir uns auf Regressionsdiagnosen konzentrieren, um zu überprüfen, ob Ihre Daten die Annahmen der linearen Regression erfüllen. Hier werden wir uns auf die Frage der Normalität konzentrieren. Einige Forscher glauben, dass eine lineare Regression erfordert, dass die Ergebnisse (abhängige) und Prädiktor-Variablen normal verteilt werden. Wir müssen dieses Problem klären. In Wirklichkeit sind es die Residuen, die normal verteilt werden müssen. Tatsächlich müssen die Residuen nur dann normal sein, wenn die t-Tests gültig sind. Die Schätzung der Regressionskoeffizienten erfordert keine normal verteilten Residuen. Da wir daran interessiert sind, gültige t-Tests zu haben, werden wir Fragen der Normalität untersuchen. Eine häufige Ursache für nicht normal verteilte Residuen sind nicht normal verteilte Ergebnisse und Vorhersagevariablen. Lassen Sie uns also die Verteilung unserer Variablen erforschen und wie wir sie in eine normalere Form umwandeln könnten. Beginnt mit einem Histogramm der Variablenregistrierung. Die wir früher in der einfachen Regression gesehen haben. Wir können die normale Option verwenden, um eine normale Kurve auf diesem Diagramm zu überlagern, und die Option bin (20), 20 Bins zu verwenden. Die Verteilung sieht nach rechts schräg aus. Sie können auch Etiketten der Achsen ändern. So verwenden wir z. B. die Option xlabel (), um die x-Achse unten zu beschriften und sie von 0 bis 1600 zu kennzeichnen, die um 100 inkrementiert werden. Histogramme sind empfindlich für die Anzahl der Bins oder Spalten, die im Display verwendet werden. Eine Alternative zu Histogrammen ist die Kerneldichte, die die Wahrscheinlichkeitsdichte der Variablen annähert. Kerndichte-Diagramme haben den Vorteil, glatt zu sein und unabhängig von der Ursprungswahl im Gegensatz zu Histogrammen zu sein. Stata implementiert Kerneldichte-Diagramme mit dem Befehl kdensity. Es ist nicht überraschend, dass die Kdensity-Kurve auch anzeigt, dass die variable Einschreibung nicht normal aussieht. Jetzt können Sie einen Boxplot für die Registrierung. Mit dem Befehl graph box. Beachten Sie die Punkte oben auf dem Boxplot, die mögliche Ausreißer anzeigen, dh diese Datenpunkte liegen über 1,5 (interquartile Bereich) oberhalb des 75. Perzentils. Diese Boxplot bestätigt auch, dass die Registrierung nach rechts geschoben ist. Es gibt drei weitere Arten von Graphen, die häufig verwendet werden, um die Verteilung von Variablen Symmetrieplots, normale Quantilplots und normale Wahrscheinlichkeitsdiagramme zu untersuchen. Ein Symmetrie-Diagramm skizziert den Abstand oberhalb des Medians für den i-ten Wert gegen den Abstand unter dem Median für den i-ten Wert. Eine symmetrische Variable hätte Punkte, die auf der diagonalen Linie liegen. Wie wir erwarten würden, ist diese Verteilung nicht symmetrisch. Ein normales Quantil-Diagramm vergleicht die Quantile einer Variablen mit den Quantilen einer normalen (Gaußschen) Verteilung. Qnorm ist empfindlich für Nicht-Normalität in der Nähe der Schwänze, und tatsächlich sehen wir erhebliche Abweichungen von normal, die diagonale Linie, in den Schwänzen. Dieses Diagramm ist typisch für Variablen, die stark nach rechts geneigt sind. Schließlich ist die normale Wahrscheinlichkeitsrechnung auch für die Untersuchung der Verteilung von Variablen nützlich. Pnorm ist empfindlich gegenüber Abweichungen von der Normalität näher an der Mitte der Verteilung. Wieder sehen wir Hinweise auf Nicht-Normalität bei der Anmeldung. Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment