Thursday, October 27, 2016

Autoregressive beweglicher durchschnitt in r

ARIMA Forecasting mit Excel und R Hallo Heute gehe ich Sie durch eine Einführung in das ARIMA-Modell und seine Komponenten sowie eine kurze Erläuterung der Box-Jenkins-Methode, wie ARIMA-Modelle spezifiziert werden. Schließlich habe ich eine Excel-Implementierung mit R, die Ill zeigen Ihnen, wie Sie einrichten und verwenden. Autoregressive Moving Average (ARMA) Modelle Das Autoregressive Moving Average Modell dient der Modellierung und Prognose stationärer, stochastischer Zeitreihenprozesse. Es ist die Kombination von zwei zuvor entwickelten statistischen Techniken, die Autoregressive (AR) und Moving Average (MA) Modelle und wurde ursprünglich von Peter Whittle im Jahr 1951 beschrieben. George E. P. Box und Gwilym Jenkins popularisiert das Modell im Jahr 1971 durch die Festlegung von diskreten Schritten zum Modell Identifizierung, Schätzung und Verifizierung. Dieser Vorgang wird später als Referenz beschrieben. Wir beginnen mit der Einführung des ARMA-Modells durch seine verschiedenen Komponenten, die AR - und MA-Modelle und präsentieren dann eine beliebte Generalisierung des ARMA-Modells, ARIMA (Autoregressive Integrated Moving Average) sowie Prognose - und Modellspezifikationsschritte. Schließlich erkläre ich eine Excel-Implementierung, die ich verursachte und wie man sie benutzt, um Ihre Zeitreihenvorhersagen zu bilden. Autoregressive Modelle Das Autoregressive Modell dient der Beschreibung von Zufallsprozessen und zeitveränderlichen Prozessen und legt fest, dass die Ausgangsgröße linear von den vorherigen Werten abhängt. Das Modell ist beschrieben als: Wo sind die Parameter des Modells, C ist konstant, und ist ein weißes Rauschen Begriff. Im Wesentlichen, was das Modell beschreibt, ist für jeden gegebenen Wert. Sie kann durch Funktionen ihres vorherigen Wertes erklärt werden. Für ein Modell mit einem Parameter,. Wird durch seinen früheren Wert und zufälligen Fehler erklärt. Für ein Modell mit mehr als einem Parameter, zum Beispiel. Ist gegeben durch. Und zufälliger Fehler. Moving Average Model Das Moving Average (MA) - Modell wird häufig für die Modellierung univariate Zeitreihen verwendet und ist definiert als: ist der Mittelwert der Zeitreihe. Sind die Parameter des Modells. Sind die Fehlerbedingungen des weißen Rauschens. Ist die Ordnung des Moving Average Modells. Das Moving Average - Modell ist eine lineare Regression des aktuellen Wertes der Serie im Vergleich zu den Terminen der Vorperiode. . Zum Beispiel, ein MA - Modell von. Wird durch den aktuellen Fehler in der gleichen Periode und dem vergangenen Fehlerwert erklärt. Für ein Modell der Ordnung 2 () wird durch die beiden letzten Fehlerwerte erklärt, und. Die AR () - und MA () - Terme werden im ARMA-Modell verwendet, das nun eingeführt wird. Autoregressive Moving Average Model Autoregressive Moving Average Modelle verwenden zwei Polynome, AR () und MA () und beschreiben einen stationären stochastischen Prozess. Ein stationärer Prozess ändert sich nicht, wenn er zeitlich oder räumlich verschoben wird, daher hat ein stationärer Prozess konstante Mittelwerte und Varianz. Das ARMA-Modell wird oft in Bezug auf seine Polynome, ARMA () genannt. Die Notation des Modells wird geschrieben: Das Auswählen, Schätzen und Verifizieren des Modells wird durch den Box-Jenkins-Prozess beschrieben. Box-Jenkins Methode zur Modellidentifikation Nachstehend ist mehr ein Überblick über die Box-Jenkins-Methode, da der eigentliche Prozess der Suche dieser Werte kann ziemlich überwältigend, ohne ein statistisches Paket. Das auf dieser Seite enthaltene Excel-Blatt bestimmt automatisch das bestmögliche Modell. Der erste Schritt der Box-Jenkins-Methode ist die Modellidentifizierung. Der Schritt umfasst das Identifizieren der Saisonalität, die Differenzierung, falls erforderlich, und das Bestimmen der Reihenfolge und der Auftragung der Autokorrelation und der partiellen Autokorrelationsfunktionen. Nachdem das Modell identifiziert ist, werden im nächsten Schritt die Parameter geschätzt. Die Parameterschätzung verwendet statistische Pakete und Berechnungsalgorithmen, um die passenden Parameter zu finden. Sobald die Parameter ausgewählt sind, wird im letzten Schritt das Modell überprüft. Die Modellprüfung wird durch Testen durchgeführt, um zu sehen, ob das Modell einer stationären univariaten Zeitreihe entspricht. Man sollte auch bestätigen, daß die Residuen unabhängig voneinander sind und ein konstantes Mittel und eine zeitliche Abweichung aufweisen, was durch Ausführen eines Ljung-Box-Tests oder durch erneutes Plotten der Autokorrelation und teilweisen Autokorrelation der Residuen erfolgen kann. Beachten Sie den ersten Schritt beinhaltet die Überprüfung für Saisonalität. Wenn die Daten, die Sie bearbeiten mit saisonalen Trends, Sie Unterschied, um die Daten stationär zu machen. Dieser Differenzierungsschritt verallgemeinert das ARMA-Modell in ein ARIMA-Modell oder Autoregressive Integrated Moving Average, wobei Integrated dem Differenzierungsschritt entspricht. Autoregressive integrierte Moving Average Modelle Das ARIMA Modell hat drei Parameter,. Um das ARMA-Modell zu definieren, um den differenzierenden Term einzuschließen, beginnen wir mit der Neuanordnung des Standard-ARMA-Modells zur Trennung und von der Summation. Wo ist der Lag - Operator und. . Sind autoregressive und gleitende Durchschnittsparameter bzw. die Fehlerterme. Wir nehmen nun die Annahme als erstes Polynom der Funktion an, haben eine einheitliche Wurzel der Vielfachheit. Wir können es dann folgendermaßen umschreiben: Das ARIMA-Modell drückt die Polynomfaktorisierung mit aus und gibt uns: Zuletzt verallgemeinern wir das Modell durch Hinzufügen eines Driftterms, der das ARIMA-Modell als ARIMA () mit Drift definiert. Mit dem nun definierten Modell können wir das ARIMA-Modell als zwei getrennte Teile ansehen, ein nicht stationäres und das andere weitsichtige stationäre (gemeinsame Wahrscheinlichkeitsverteilung ändert sich nicht, wenn zeit - oder raumverschoben). Das nicht stationäre Modell: Das weitsichtige stationäre Modell: Prognosen können nun mit Hilfe einer verallgemeinerten autoregressiven Prognosemethode erstellt werden. Nun, da wir die ARMA und ARIMA Modelle diskutiert haben, wenden wir uns nun, wie können wir sie in praktischen Anwendungen nutzen, um Prognosen zur Verfügung stellen. Ive baute eine Implementierung mit Excel mit R zu machen ARIMA Prognosen sowie eine Option, um Monte-Carlo-Simulation auf das Modell, um die Wahrscheinlichkeit der Prognosen zu bestimmen. Excel-Implementierung und Gebrauchsanweisung Bevor Sie das Blatt verwenden, müssen Sie R und RExcel von der Statconn-Website herunterladen. Wenn Sie bereits R installiert haben, können Sie einfach herunterladen RExcel. Wenn Sie nicht R installiert haben, können Sie herunterladen RAndFriends, die die neueste Version von R und RExcel enthält. Bitte beachten Sie, funktioniert RExcel nur auf 32bit Excel für seine nicht-kommerzielle Lizenz. Wenn Sie 64bit Excel installiert haben, müssen Sie eine kommerzielle Lizenz von Statconn erhalten. Es empfiehlt sich, RAndFriends herunterzuladen, da es die schnellste und einfachste Installation macht, aber wenn Sie bereits R haben und es manuell installieren möchten, folgen Sie den folgenden Schritten. Manuelles Installieren von RExcel Um RExcel und die anderen Pakete zu installieren, damit R in Excel ausgeführt wird, öffnen Sie zuerst R als Administrator, indem Sie mit der rechten Maustaste auf die. exe klicken. Installieren Sie RExcel in der R-Konsole, indem Sie die folgenden Anweisungen eingeben: Die obigen Befehle installieren RExcel auf Ihrem Computer. Der nächste Schritt ist die Installation von rcom, ein weiteres Paket von Statconn für das RExcel-Paket. Um dies zu installieren, geben Sie die folgenden Befehle ein, die auch rscproxy ab R Version 2.8.0 automatisch installieren. Wenn diese Pakete installiert sind, können Sie auf die Einstellung der Verbindung zwischen R und Excel zu bewegen. Obwohl nicht notwendig, um die Installation, ist ein praktisches Paket zum Download Rcmdr, von John Fox entwickelt. Rcmdr erstellt R-Menüs, die Menüs in Excel werden können. Diese Funktion ist standardmäßig mit der RAndFriends-Installation verfügbar und stellt mehrere R-Befehle in Excel zur Verfügung. Geben Sie die folgenden Befehle in R ein, um Rcmdr zu installieren. Wir können den Link zu R und Excel erstellen. Hinweis: In neueren Versionen von RExcel wird diese Verbindung mit einem einfachen Doppelklick auf die mitgelieferte. bat-Datei ActivateRExcel2010 hergestellt. Daher sollten Sie diese Schritte nur durchführen, wenn Sie R und RExcel manuell installiert haben oder wenn aus irgendeinem Grund die Verbindung nicht hergestellt wird Die RAndFriends-Installation. Erstellen der Verbindung zwischen R und Excel Öffnen Sie ein neues Buch in Excel und navigieren Sie zum Optionen-Bildschirm. Klicken Sie auf Optionen und dann auf Add-Ins. Sie sollten eine Liste aller aktiven und inaktiven Add-Ins sehen, die Sie derzeit haben. Klicken Sie unten auf die Schaltfläche Go. Im Add-Ins-Dialogfeld sehen Sie alle Add-In-Referenzen, die Sie erstellt haben. Klicken Sie auf Durchsuchen. Navigieren Sie zu dem RExcel-Ordner, der sich normalerweise in C: Program FilesRExcelxls oder etwas Ähnlichem befindet. Suchen Sie das Add-In RExcel. xla und klicken Sie es an. Der nächste Schritt besteht darin, eine Referenz zu erstellen, damit Makros mit R korrekt arbeiten können. Geben Sie in Ihrem Excel-Dokument Alt F11 ein. Dies öffnet Excels VBA-Editor. Gehen Sie zu Tools - gt Referenzen, und finden Sie die RExcel-Referenz, RExcelVBAlib. RExcel sollte nun einsatzbereit sein Mit dem Excel-Sheet Nachdem R und RExcel ordnungsgemäß konfiguriert sind, ist es Zeit, eine Prognose durchzuführen. Öffnen Sie das Prognoseblatt und klicken Sie auf Load Server. Dies ist, um den RCom-Server zu starten und auch die notwendigen Funktionen zu laden, um die Prognose durchzuführen. Ein Dialogfenster wird geöffnet. Wählen Sie die Datei itall. R aus. Diese Datei enthält die Funktionen, die das Prognosetool verwendet. Die meisten Funktionen wurden von Professor Stoffer an der University of Pittsburgh entwickelt. Sie erweitern die Fähigkeiten von R und geben uns einige hilfreiche Diagnose-Graphen zusammen mit unserer Prognose-Ausgabe. Es gibt auch eine Funktion, um automatisch die besten Anpassungsparameter des ARIMA-Modells zu bestimmen. Geben Sie nach dem Laden des Servers Ihre Daten in die Spalte Daten ein. Wählen Sie den Bereich der Daten aus, klicken Sie mit der rechten Maustaste und wählen Sie Name Range. Benennen Sie den Bereich als Daten. Legen Sie anschließend die Häufigkeit Ihrer Daten in Cell C6 fest. Häufigkeit bezieht sich auf die Zeiträume Ihrer Daten. Wenn es wöchentlich ist, wäre die Frequenz 7. Monatlich wäre 12, während vierteljährlich 4 wäre, und so weiter. Geben Sie die Perioden ein, die der Prognose vorausgehen. Man beachte, daß ARIMA-Modelle nach mehreren aufeinanderfolgenden Frequenzvorhersagen ziemlich ungenau werden. Eine gute Faustregel sollte nicht mehr als 30 Schritte als alles Vergangene, die eher unzuverlässig sein könnte. Dies hängt auch von der Größe Ihres Datensatzes ab. Wenn Sie nur begrenzte Daten zur Verfügung haben, empfiehlt es sich, eine kleinere Zahl voranzustellen. Nachdem Sie Ihre Daten eingegeben, benannt und die gewünschte Frequenz eingestellt haben, klicken Sie auf Ausführen. Es kann eine Weile dauern, bis die Prognose verarbeitet wird. Sobald er abgeschlossen ist, erhalten Sie die vorhergesagten Werte auf die angegebene Nummer, den Standardfehler der Ergebnisse und zwei Diagramme. Links sind die projizierten Werte mit den Daten gezeichnet, während rechts eine praktische Diagnose mit standardisierten Residuen, die Autokorrelation der Residuen, ein gg-Diagramm der Residuen und ein Ljung-Box-Statistikgraph enthalten sind, um zu bestimmen, ob das Modell gut angepasst ist. Ich werde nicht in zu viel Detail auf, wie Sie für ein gut angepasstes Modell suchen, aber auf der ACF-Diagramm Sie nicht möchten, dass eine (oder eine Menge) der Lag Spikes Kreuzung über die gepunktete blaue Linie. Auf dem gg-Plot, die mehr Kreise, die durch die Linie gehen, desto normalisierter und besser das Modell passt. Für größere Datensätze könnte dies eine Menge Kreise kreuzen. Schließlich ist die Ljung-Box-Test ein Artikel an sich jedoch, je mehr Kreise, die über der gepunkteten blauen Linie sind, desto besser ist das Modell. Wenn das Ergebnis der Diagnose nicht gut aussieht, können Sie versuchen, weitere Daten hinzuzufügen oder an einem anderen Punkt zu beginnen, der näher an dem Bereich liegt, den Sie prognostizieren möchten. Sie können die erzeugten Ergebnisse leicht löschen, indem Sie auf die Schaltfläche Clear Forecasted Values ​​klicken. Und das ist es derzeit Die Datumsspalte tut nichts anderes als für Ihre Referenz, aber es ist nicht notwendig für das Tool. Wenn ich Zeit finde, gehe ich zurück und füge hinzu, dass so das angezeigte Diagramm die richtige Zeit anzeigt. Möglicherweise erhalten Sie außerdem einen Fehler beim Ausführen der Prognose. Dies ist in der Regel aufgrund der Funktion, die die besten Parameter findet, ist nicht in der Lage, die richtige Reihenfolge zu bestimmen. Sie können die obigen Schritte befolgen, um zu versuchen, Ihre Daten besser zu ordnen, damit die Funktion funktioniert. Ich hoffe, Sie erhalten Nutzen aus dem Tool Es hat mir viel Zeit bei der Arbeit, da jetzt alles, was ich tun müssen, ist die Daten eingeben, laden Sie den Server und führen Sie es. Ich hoffe auch, dass dies zeigt Ihnen, wie awesome R sein kann, vor allem, wenn mit einem Front-End wie Excel verwendet. Code, Excel-Arbeitsblatt und. bas-Datei befinden sich ebenfalls auf GitHub. A RIMA steht für Autoregressive Integrated Moving Average-Modelle. Univariate (Einzelvektor) ARIMA ist eine Prognosemethode, die die zukünftigen Werte einer Serie, die vollständig auf ihrer eigenen Trägheit basiert, projiziert. Seine Hauptanwendung liegt im Bereich der kurzfristigen Prognose mit mindestens 40 historischen Datenpunkten. Es funktioniert am besten, wenn Ihre Daten eine stabile oder konsistente Muster im Laufe der Zeit mit einem Minimum an Ausreißern zeigt. Manchmal nennt man Box-Jenkins (nach den ursprünglichen Autoren), ARIMA ist in der Regel überlegen exponentielle Glättung Techniken, wenn die Daten relativ lange und die Korrelation zwischen vergangenen Beobachtungen ist stabil. Wenn die Daten kurz oder stark flüchtig sind, kann eine gewisse Glättungsmethode besser ablaufen. Wenn Sie nicht über mindestens 38 Datenpunkte verfügen, sollten Sie eine andere Methode als ARIMA betrachten. Der erste Schritt bei der Anwendung der ARIMA-Methodik ist die Überprüfung der Stationarität. Stationarität impliziert, dass die Reihe auf einem ziemlich konstanten Niveau über Zeit bleibt. Wenn ein Trend besteht, wie in den meisten wirtschaftlichen oder geschäftlichen Anwendungen, dann sind Ihre Daten nicht stationär. Die Daten sollten auch eine konstante Varianz in ihren Schwankungen im Laufe der Zeit zeigen. Dies ist leicht zu sehen mit einer Serie, die stark saisonal und wächst mit einer schnelleren Rate. In einem solchen Fall werden die Höhen und Tiefen der Saisonalität im Laufe der Zeit dramatischer. Ohne dass diese Stationaritätsbedingungen erfüllt sind, können viele der mit dem Prozess verbundenen Berechnungen nicht berechnet werden. Wenn eine grafische Darstellung der Daten Nichtstationarität anzeigt, dann sollten Sie die Serie unterscheiden. Die Differenzierung ist eine hervorragende Möglichkeit, eine nichtstationäre Serie in eine stationäre zu transformieren. Dies geschieht durch Subtrahieren der Beobachtung in der aktuellen Periode von der vorherigen. Wenn diese Transformation nur einmal zu einer Reihe erfolgt, sagen Sie, dass die Daten zuerst unterschieden wurden. Dieser Prozess im Wesentlichen eliminiert den Trend, wenn Ihre Serie wächst mit einer ziemlich konstanten Rate. Wenn es mit steigender Rate wächst, können Sie das gleiche Verfahren anwenden und die Daten erneut differenzieren. Ihre Daten würden dann zweite differenziert werden. Autokorrelationen sind Zahlenwerte, die angeben, wie sich eine Datenreihe mit der Zeit auf sich bezieht. Genauer gesagt misst es, wie stark Datenwerte bei einer bestimmten Anzahl von Perioden auseinander über die Zeit miteinander korreliert werden. Die Anzahl der Perioden wird in der Regel als Verzögerung bezeichnet. Zum Beispiel misst eine Autokorrelation bei Verzögerung 1, wie die Werte 1 Periode auseinander in der Reihe miteinander korreliert sind. Eine Autokorrelation bei Verzögerung 2 misst, wie die Daten, die zwei Perioden voneinander getrennt sind, über die gesamte Reihe miteinander korrelieren. Autokorrelationen können im Bereich von 1 bis -1 liegen. Ein Wert nahe 1 gibt eine hohe positive Korrelation an, während ein Wert nahe -1 impliziert eine hohe negative Korrelation. Diese Maßnahmen werden meist durch grafische Darstellungen, sogenannte Korrelagramme, ausgewertet. Ein Korrelationsdiagramm zeigt die Autokorrelationswerte für eine gegebene Reihe bei unterschiedlichen Verzögerungen. Dies wird als Autokorrelationsfunktion bezeichnet und ist bei der ARIMA-Methode sehr wichtig. Die ARIMA-Methodik versucht, die Bewegungen in einer stationären Zeitreihe als Funktion der so genannten autoregressiven und gleitenden Durchschnittsparameter zu beschreiben. Diese werden als AR-Parameter (autoregessiv) und MA-Parameter (gleitende Mittelwerte) bezeichnet. Ein AR-Modell mit nur einem Parameter kann als geschrieben werden. X (t) A (1) X (t-1) E (t) wobei X (t) Zeitreihen A (1) der autoregressive Parameter der Ordnung 1 X (t-1) (T) der Fehlerterm des Modells Dies bedeutet einfach, daß jeder gegebene Wert X (t) durch eine Funktion seines vorherigen Wertes X (t-1) plus einen unerklärlichen Zufallsfehler E (t) erklärt werden kann. Wenn der geschätzte Wert von A (1) 0,30 betrug, dann wäre der aktuelle Wert der Reihe mit 30 seines vorherigen Wertes 1 verknüpft. Natürlich könnte die Serie auf mehr als nur einen vergangenen Wert bezogen werden. Zum Beispiel ist X (t) A (1) X (t-1) A (2) X (t-2) E (t) Dies zeigt an, dass der aktuelle Wert der Reihe eine Kombination der beiden unmittelbar vorhergehenden Werte ist, X (t-1) und X (t-2) zuzüglich eines Zufallsfehlers E (t). Unser Modell ist nun ein autoregressives Modell der Ordnung 2. Moving Average Models: Eine zweite Art von Box-Jenkins-Modell wird als gleitendes Durchschnittsmodell bezeichnet. Obwohl diese Modelle dem AR-Modell sehr ähnlich sind, ist das Konzept dahinter ganz anders. Bewegliche Durchschnittsparameter beziehen sich auf das, was in der Periode t stattfindet, nur auf die zufälligen Fehler, die in vergangenen Zeitperioden aufgetreten sind, dh E (t-1), E (t-2) usw. anstatt auf X (t-1), X T-2), (Xt-3) wie in den autoregressiven Ansätzen. Ein gleitendes Durchschnittsmodell mit einem MA-Begriff kann wie folgt geschrieben werden. X (t) - B (1) E (t-1) E (t) Der Begriff B (1) wird als MA der Ordnung 1 bezeichnet. Das negative Vorzeichen vor dem Parameter wird nur für Konventionen verwendet und in der Regel ausgedruckt Automatisch von den meisten Computerprogrammen. Das obige Modell sagt einfach, dass jeder gegebene Wert von X (t) direkt nur mit dem Zufallsfehler in der vorherigen Periode E (t-1) und mit dem aktuellen Fehlerterm E (t) zusammenhängt. Wie im Fall von autoregressiven Modellen können die gleitenden Durchschnittsmodelle auf übergeordnete Strukturen mit unterschiedlichen Kombinationen und gleitenden mittleren Längen erweitert werden. Die ARIMA-Methodik erlaubt es auch, Modelle zu erstellen, die sowohl autoregressive als auch gleitende Durchschnittsparameter zusammenführen. Diese Modelle werden oft als gemischte Modelle bezeichnet. Obwohl dies für eine kompliziertere Prognose-Tool macht, kann die Struktur tatsächlich simulieren die Serie besser und produzieren eine genauere Prognose. Pure Modelle implizieren, dass die Struktur nur aus AR oder MA-Parameter besteht - nicht beides. Die Modelle, die von diesem Ansatz entwickelt werden, werden in der Regel als ARIMA-Modelle bezeichnet, da sie eine Kombination aus autoregressiver (AR), Integration (I) verwenden, die sich auf den umgekehrten Prozess der Differenzierung bezieht, um die Prognose zu erzeugen. Ein ARIMA-Modell wird üblicherweise als ARIMA (p, d, q) angegeben. Dies ist die Reihenfolge der autoregressiven Komponenten (p), der Anzahl der differenzierenden Operatoren (d) und der höchsten Ordnung des gleitenden Mittelwerts. Beispielsweise bedeutet ARIMA (2,1,1), dass Sie ein autoregressives Modell zweiter Ordnung mit einer gleitenden mittleren Komponente erster Ordnung haben, deren Serie einmal differenziert wurde, um die Stationarität zu induzieren. Auswahl der richtigen Spezifikation: Das Hauptproblem in der klassischen Box-Jenkins versucht zu entscheiden, welche ARIMA-Spezifikation zu verwenden - i. e. Wie viele AR - und / oder MA-Parameter eingeschlossen werden sollen. Dies ist, was viel von Box-Jenkings 1976 dem Identifikationsprozeß gewidmet wurde. Es hing von der graphischen und numerischen Auswertung der Stichprobenautokorrelation und der partiellen Autokorrelationsfunktionen ab. Nun, für Ihre grundlegenden Modelle, ist die Aufgabe nicht allzu schwierig. Jeder hat Autokorrelationsfunktionen, die eine bestimmte Weise aussehen. Allerdings, wenn Sie gehen in der Komplexität, die Muster sind nicht so leicht zu erkennen. Um es schwieriger zu machen, stellen Ihre Daten nur eine Probe des zugrundeliegenden Prozesses dar. Das bedeutet, dass Stichprobenfehler (Ausreißer, Messfehler etc.) den theoretischen Identifikationsprozess verzerren können. Deshalb ist die traditionelle ARIMA-Modellierung eher eine Kunst als eine Wissenschaft.8.4 Verschieben von Durchschnittsmodellen Anstatt Vergangenheitswerte der Prognosedatei in einer Regression zu verwenden, verwendet ein gleitendes Durchschnittsmodell vergangene Prognosefehler in einem Regressionsmodell. Y c et the theta e dots theta e, wobei et weißes Rauschen ist. Wir bezeichnen dies als MA (q) - Modell. Natürlich beobachten wir nicht die Werte von et, also ist es nicht wirklich Regression im üblichen Sinne. Man beachte, daß jeder Wert von yt als gewichteter gleitender Durchschnitt der letzten Prognosefehler betrachtet werden kann. Allerdings sollten gleitende Durchschnittsmodelle nicht mit der gleitenden glatten Glättung verwechselt werden, die wir in Kapitel 6 besprochen haben. Ein gleitendes Durchschnittsmodell wird für die Prognose zukünftiger Werte verwendet, während die gleitende gleitende Durchschnittskurve für die Schätzung des Trendzyklus der vergangenen Werte verwendet wird. Abbildung 8.6: Zwei Beispiele für Daten aus gleitenden Durchschnittsmodellen mit unterschiedlichen Parametern. Links: MA (1) mit yt 20e t 0,8e t-1. Rechts: MA (2) mit y t e t - e t-1 0,8e t-2. In beiden Fällen ist e t normalerweise weißes Rauschen mit Mittelwert Null und Varianz eins verteilt. Abbildung 8.6 zeigt einige Daten aus einem MA (1) - Modell und einem MA (2) - Modell. Das Ändern der Parameter theta1, Punkte, thetaq Ergebnisse in verschiedenen Zeitreihenmuster. Wie bei autoregressive Modelle, wird die Varianz des Fehlerterms et nur den Maßstab der Serie ändern, nicht die Muster. Es ist möglich, jedes stationäre AR (p) - Modell als MA (infty) - Modell zu schreiben. Zum Beispiel wiederholte Substitution, können wir dies für ein AR (1) Modell zeigen: begin yt amp phi1y et amp PHI1 (phi1y e) et amp phi12y phi1 e et amp phi13y phi12e phi1 e et amptext Ende bereitgestellt -1 lt phi1 lt 1 wird der Wert von phi1k kleiner, wenn k größer wird. So schließlich erhalten wir yt et phi1 e phi12 e phi13 e cdots, MA (infty) Prozess. Das umgekehrte Ergebnis gilt, wenn wir den MA-Parametern einige Einschränkungen auferlegen. Dann wird das MA-Modell invertierbar. Das heißt, dass wir keine umkehrbar MA (q) Prozess als AR (infty) Prozess schreiben kann. Invertible Modelle sind nicht einfach, uns zu ermöglichen, von MA-Modelle konvertieren Modelle AR. Sie haben auch einige mathematische Eigenschaften, die sie einfacher zu bedienen in der Praxis zu machen. Die Invertibilitätsbedingungen sind den stationären Einschränkungen ähnlich. Für ein MA (1) Modell: -1lttheta1lt1. Für ein MA (2) - Modell: -1lttheta2lt1, theta2theta1 gt-1, theta1 - theta2 lt 1. Kompliziertere Bedingungen gelten für qge3. Wiederum wird R diese Einschränkungen bei der Schätzung der Modelle berücksichtigen.2.1 Gleitende Durchschnittsmodelle (MA-Modelle) Zeitreihenmodelle, die als ARIMA-Modelle bekannt sind, können autoregressive Begriffe und / oder gleitende Durchschnittsterme enthalten. In Woche 1 erlernten wir einen autoregressiven Term in einem Zeitreihenmodell für die Variable x t ist ein verzögerter Wert von x t. Beispielsweise ist ein autoregressiver Term der Verzögerung 1 x t-1 (multipliziert mit einem Koeffizienten). Diese Lektion definiert gleitende Durchschnittsterme. Ein gleitender Durchschnittsterm in einem Zeitreihenmodell ist ein vergangener Fehler (multipliziert mit einem Koeffizienten). Es sei n (0, sigma2w) überschritten, was bedeutet, daß die wt identisch unabhängig voneinander verteilt sind, jeweils mit einer Normalverteilung mit dem Mittelwert 0 und der gleichen Varianz. Das durch MA (1) bezeichnete gleitende Durchschnittsmodell der 1. Ordnung ist (xt mu wt theta1w) Das durch MA (2) bezeichnete gleitende Durchschnittsmodell der zweiten Ordnung ist (xt mu wt theta1w theta2w) Das gleitende Mittelmodell der q-ten Ordnung , Mit MA (q) bezeichnet, ist (xt mu wt theta1w theta2w dots thetaqw) Hinweis. Viele Lehrbücher und Softwareprogramme definieren das Modell mit negativen Vorzeichen vor den Begriffen. Dies ändert nicht die allgemeinen theoretischen Eigenschaften des Modells, obwohl es die algebraischen Zeichen der geschätzten Koeffizientenwerte und (nicht quadrierten) Ausdrücke in Formeln für ACFs und Abweichungen umwandelt. Sie müssen Ihre Software überprüfen, um zu überprüfen, ob negative oder positive Vorzeichen verwendet worden sind, um das geschätzte Modell korrekt zu schreiben. R verwendet positive Vorzeichen in seinem zugrunde liegenden Modell, wie wir hier tun. Theoretische Eigenschaften einer Zeitreihe mit einem MA (1) Modell Beachten Sie, dass der einzige Wert ungleich Null im theoretischen ACF für Verzögerung 1 ist. Alle anderen Autokorrelationen sind 0. Somit ist ein Proben-ACF mit einer signifikanten Autokorrelation nur bei Verzögerung 1 ein Indikator für ein mögliches MA (1) - Modell. Für interessierte Studierende, Beweise dieser Eigenschaften sind ein Anhang zu diesem Handout. Beispiel 1 Angenommen, dass ein MA (1) - Modell x t 10 w t .7 w t-1 ist. Wobei (wt overset N (0,1)). Somit ist der Koeffizient 1 0,7. Die theoretische ACF wird durch eine Plot dieser ACF folgt folgt. Die graphische Darstellung ist die theoretische ACF für eine MA (1) mit 1 0,7. In der Praxis liefert eine Probe gewöhnlich ein solches klares Muster. Unter Verwendung von R simulierten wir n 100 Abtastwerte unter Verwendung des Modells x t 10 w t .7 w t-1, wobei w t iid N (0,1) war. Für diese Simulation folgt ein Zeitreihen-Diagramm der Probendaten. Wir können nicht viel von dieser Handlung erzählen. Die Proben-ACF für die simulierten Daten folgt. Wir sehen eine Spitze bei Verzögerung 1, gefolgt von im Allgemeinen nicht signifikanten Werten für Verzögerungen nach 1. Es ist zu beachten, dass das Beispiel-ACF nicht mit dem theoretischen Muster des zugrunde liegenden MA (1) übereinstimmt, was bedeutet, dass alle Autokorrelationen für Verzögerungen nach 1 0 sein werden Eine andere Probe hätte eine geringfügig unterschiedliche Probe ACF wie unten gezeigt, hätte aber wahrscheinlich die gleichen breiten Merkmale. Theroretische Eigenschaften einer Zeitreihe mit einem MA (2) - Modell Für das MA (2) - Modell sind die theoretischen Eigenschaften die folgenden: Die einzigen Werte ungleich Null im theoretischen ACF sind für die Lags 1 und 2. Autokorrelationen für höhere Lags sind 0 , So zeigt ein Beispiel-ACF mit signifikanten Autokorrelationen bei Lags 1 und 2, aber nicht signifikante Autokorrelationen für höhere Lags ein mögliches MA (2) - Modell. Iid N (0,1). Die Koeffizienten betragen 1 0,5 und 2 0,3. Da es sich hierbei um ein MA (2) handelt, wird der theoretische ACF nur bei den Verzögerungen 1 und 2 Werte ungleich Null aufweisen. Werte der beiden Nicht-Autokorrelationen sind A-Kurve des theoretischen ACF. Wie fast immer der Fall ist, verhalten sich Musterdaten nicht ganz so perfekt wie die Theorie. Wir simulierten n 150 Beispielwerte für das Modell x t 10 w t .5 w t-1 .3 w t-2. Wobei wt iid N (0,1) ist. Die Zeitreihenfolge der Daten folgt. Wie beim Zeitreihenplot für die MA (1) Beispieldaten können Sie nicht viel davon erzählen. Die Proben-ACF für die simulierten Daten folgt. Das Muster ist typisch für Situationen, in denen ein MA (2) - Modell nützlich sein kann. Es gibt zwei statistisch signifikante Spikes bei Lags 1 und 2, gefolgt von nicht signifikanten Werten für andere Lags. Beachten Sie, dass aufgrund des Stichprobenfehlers das Muster ACF nicht genau dem theoretischen Muster entsprach. ACF für allgemeine MA (q) - Modelle Eine Eigenschaft von MA (q) - Modellen besteht im Allgemeinen darin, dass Autokorrelationen ungleich Null für die ersten q-Lags und Autokorrelationen 0 für alle Lags gt q existieren. Nicht-Eindeutigkeit der Verbindung zwischen Werten von 1 und (rho1) in MA (1) Modell. Im MA (1) - Modell für einen Wert von 1. Die reziproke 1/1 gibt den gleichen Wert für Als Beispiel, verwenden Sie 0.5 für 1. Und dann 1 / (0,5) 2 für 1 verwenden. Youll erhalten (rho1) 0,4 in beiden Fällen. Um eine theoretische Einschränkung als Invertibilität zu befriedigen. Wir beschränken MA (1) - Modelle auf Werte mit einem Absolutwert von weniger als 1. In dem gerade angegebenen Beispiel ist 1 0,5 ein zulässiger Parameterwert, während 1 1 / 0,5 2 nicht. Invertibilität von MA-Modellen Ein MA-Modell soll invertierbar sein, wenn es algebraisch äquivalent zu einem konvergierenden unendlichen Ordnungs-AR-Modell ist. Durch Konvergenz meinen wir, dass die AR-Koeffizienten auf 0 sinken, wenn wir in der Zeit zurückgehen. Invertibilität ist eine Einschränkung, die in Zeitreihensoftware programmiert ist, die verwendet wird, um die Koeffizienten von Modellen mit MA-Begriffen abzuschätzen. Sein nicht etwas, das wir in der Datenanalyse überprüfen. Zusätzliche Informationen über die Invertibilitätsbeschränkung für MA (1) - Modelle finden Sie im Anhang. Fortgeschrittene Theorie Anmerkung. Für ein MA (q) - Modell mit einem angegebenen ACF gibt es nur ein invertierbares Modell. Die notwendige Bedingung für die Invertierbarkeit ist, daß die Koeffizienten solche Werte haben, daß die Gleichung 1- 1 y-. - q y q 0 hat Lösungen für y, die außerhalb des Einheitskreises liegen. R-Code für die Beispiele In Beispiel 1 wurde der theoretische ACF des Modells x t 10 w t aufgetragen. 7w t-1. Und dann n 150 Werte aus diesem Modell simuliert und die Abtastzeitreihen und die Abtast-ACF für die simulierten Daten aufgetragen. Die R-Befehle, die verwendet wurden, um den theoretischen ACF aufzuzeichnen, waren: acfma1ARMAacf (mac (0,7), lag. max10) 10 Verzögerungen von ACF für MA (1) mit theta1 0,7 lags0: 10 erzeugt eine Variable namens lags, die im Bereich von 0 bis 10 liegt (H0) fügt dem Diagramm eine horizontale Achse hinzu Der erste Befehl bestimmt den ACF und speichert ihn in einem Objekt Genannt acfma1 (unsere Wahl des Namens). Der Plotbefehl (der dritte Befehl) verläuft gegen die ACF-Werte für die Verzögerungen 1 bis 10. Der ylab-Parameter bezeichnet die y-Achse und der Hauptparameter einen Titel auf dem Plot. Um die Zahlenwerte der ACF zu sehen, benutzen Sie einfach den Befehl acfma1. Die Simulation und Diagramme wurden mit den folgenden Befehlen durchgeführt. (N150, list (mac (0.7))) Simuliert n 150 Werte aus MA (1) xxc10 addiert 10, um Mittelwert 10. Simulationsvorgaben bedeuten 0. Plot (x, typeb, mainSimulated MA (1) Acf (x, xlimc (1,10), mainACF für simulierte Probendaten) In Beispiel 2 wurde der theoretische ACF des Modells xt 10 wt. 5 w t-1 .3 w t-2 aufgetragen. Und dann n 150 Werte aus diesem Modell simuliert und die Abtastzeitreihen und die Abtast-ACF für die simulierten Daten aufgetragen. Die verwendeten R-Befehle waren acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 Plot (lags, acfma2, xlimc (1,10), ylabr, typh, main ACF für MA (2) mit theta1 0,5, (X, x) (x, x) (x, x, x, y) (1) Für interessierte Studierende sind hier Beweise für die theoretischen Eigenschaften des MA (1) - Modells. Variante: (Text (xt) Text (mu wt theta1 w) 0 Text (wt) Text (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) Wenn h 1 der vorhergehende Ausdruck 1 w 2. Für irgendeinen h 2 ist der vorhergehende Ausdruck 0 Der Grund dafür ist, dass, durch Definition der Unabhängigkeit der wt. E (w k w j) 0 für beliebige k j. Da w w die Mittelwerte 0, E (w j w j) E (w j 2) w 2 haben. Für eine Zeitreihe, Wenden Sie dieses Ergebnis an, um den oben angegebenen ACF zu erhalten. Ein invertierbares MA-Modell ist eines, das als unendliches Ordnungs-AR-Modell geschrieben werden kann, das konvergiert, so daß die AR-Koeffizienten gegen 0 konvergieren, wenn wir unendlich zurück in der Zeit bewegen. Gut zeigen Invertibilität für die MA (1) - Modell. Wir setzen dann die Beziehung (2) für wt-1 in Gleichung (1) (3) ein (zt wt theta1 (z-therma1w) wt theta1z - theta2w) Zum Zeitpunkt t-2. Gleichung (2) wird dann in Gleichung (3) die Gleichung (4) für wt-2 ersetzen (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z - theta12z theta31w) Unendlich), erhalten wir das unendliche Ordnungsmodell (zt wt theta1 z - theta21z theta31z - theta41z Punkte) Beachten Sie jedoch, dass bei 1 1 die Koeffizienten, die die Verzögerungen von z vervielfachen (unendlich) in der Größe zunehmen, Zeit. Um dies zu verhindern, benötigen wir 1 lt1. Dies ist die Bedingung für ein invertierbares MA (1) - Modell. Unendlich Ordnung MA Modell In Woche 3, gut sehen, dass ein AR (1) Modell in ein unendliches order MA Modell umgewandelt werden kann: (xt - mu wt phi1w phi21w Punkte phik1 w Punkte sum phij1w) Diese Summation der Vergangenheit weißer Rauschbegriffe ist bekannt Als die kausale Darstellung eines AR (1). Mit anderen Worten, x t ist eine spezielle Art von MA mit einer unendlichen Anzahl von Begriffen, die in der Zeit zurückgehen. Dies wird als unendliche Ordnung MA oder MA () bezeichnet. Eine endliche Ordnung MA ist eine unendliche Ordnung AR und jede endliche Ordnung AR ist eine unendliche Ordnung MA. Rückruf in Woche 1, stellten wir fest, dass eine Anforderung für eine stationäre AR (1) ist, dass 1 lt1. Berechnen Sie die Var (x t) mit der kausalen Darstellung. Dieser letzte Schritt verwendet eine Grundtatsache über geometrische Reihen, die (phi1lt1) erforderlich sind, ansonsten divergiert die Reihe. NavigationPurpose: Check Randomness Autokorrelationsdiagramme (Box und Jenkins, S. 28-32) sind ein gängiges Werkzeug zur Überprüfung der Zufälligkeit in einem Datensatz. Diese Zufälligkeit wird durch Berechnen von Autokorrelationen für Datenwerte bei variierenden Zeitverzögerungen ermittelt. Wenn sie zufällig sind, sollten solche Autokorrelationen nahezu null für irgendwelche und alle zeitlichen Verzögerungen sein. Wenn nicht-zufällig, dann werden eine oder mehrere der Autokorrelationen signifikant ungleich Null sein. Darüber hinaus werden Autokorrelationsdiagramme in der Modellidentifikationsstufe für autoregressive, gleitende mittlere Zeitreihenmodelle von Box-Jenkins verwendet. Autokorrelation ist nur ein Maß der Zufälligkeit Beachten Sie, dass unkorreliert nicht unbedingt zufällig bedeutet. Daten mit signifikanter Autokorrelation sind nicht zufällig. Daten, die keine signifikante Autokorrelation aufweisen, können jedoch auf andere Weise noch nicht-zufällig auftreten. Autokorrelation ist nur ein Maß der Zufälligkeit. Im Rahmen der Modellvalidierung (die der primäre Typ der Zufälligkeit ist, die wir im Handbuch behandeln) ist die Überprüfung auf Autokorrelation typischerweise ein ausreichender Test der Zufälligkeit, da die Residuen von schlechten Anpassungsmodellen dazu tendieren, nicht-subtile Zufälligkeit zu zeigen. Einige Anwendungen erfordern jedoch eine strengere Bestimmung der Zufälligkeit. In diesen Fällen wird eine Batterie von Tests, die eine Überprüfung auf Autokorrelation einschließen kann, angewandt, da Daten in vielen verschiedenen und oft subtilen Arten nicht-zufällig sein können. Ein Beispiel dafür, wo eine strengere Überprüfung der Zufälligkeit erforderlich ist, wäre das Testen von Zufallszahlengeneratoren. Beispiel-Diagramm: Autokorrelationen sollten nahe-Null für die Zufälligkeit sein. Dies ist bei diesem Beispiel nicht der Fall, so dass die Zufallsannahme fehlschlägt. Dieses Beispiel-Autokorrelationsdiagramm zeigt, dass die Zeitreihe nicht zufällig ist, sondern vielmehr einen hohen Grad an Autokorrelation zwischen benachbarten und nahe benachbarten Beobachtungen aufweist. Definition: r (h) versus h Autokorrelationsdiagramme werden durch vertikale Achse gebildet: Autokorrelationskoeffizient, wobei C h die Autokovarianzfunktion ist und C 0 die Varianzfunktion ist. Beachten Sie, dass R h zwischen -1 und 1 liegt Folgende Formel für die Autokovarianz-Funktion Obwohl diese Definition weniger Vorspannung hat, hat die (1 / N) - Formulierung einige wünschenswerte statistische Eigenschaften und ist die am häufigsten in der Statistikliteratur verwendete Form. Siehe Seiten 20 und 49-50 in Chatfield für Details. Horizontale Achse: Zeitverzögerung h (h 1, 2, 3.) Die obige Zeile enthält auch mehrere horizontale Bezugslinien. Die Mittellinie ist auf Null. Die anderen vier Zeilen sind 95 und 99 Konfidenzbänder. Beachten Sie, dass es zwei verschiedene Formeln für die Erzeugung der Vertrauensbänder gibt. Wenn das Autokorrelationsdiagramm verwendet wird, um auf Zufälligkeit zu testen (dh es gibt keine Zeitabhängigkeit in den Daten), wird die folgende Formel empfohlen: wobei N die Stichprobengröße ist, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha ) Ist das Signifikanzniveau. In diesem Fall haben die Vertrauensbänder eine feste Breite, die von der Probengröße abhängt. Dies ist die Formel, die verwendet wurde, um die Vertrauensbänder im obigen Diagramm zu erzeugen. Autokorrelationsdiagramme werden auch in der Modellidentifikationsstufe für die Montage von ARIMA-Modellen verwendet. In diesem Fall wird für die Daten ein gleitendes Durchschnittsmodell angenommen und die folgenden Konfidenzbänder erzeugt: wobei k die Verzögerung, N die Stichprobengröße, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha) ist Das Signifikanzniveau. In diesem Fall nehmen die Vertrauensbänder zu, wenn die Verzögerung zunimmt. Das Autokorrelationsdiagramm kann Antworten auf die folgenden Fragen liefern: Sind die Daten zufällig Ist eine Beobachtung, die mit einer angrenzenden Beobachtung in Beziehung steht, ist eine Beobachtung, die mit einer zweimal entfernten Beobachtung zusammenhängt (usw.) Ist die beobachtete Zeitreihe weißes Rauschen Ist die beobachtete Zeitreihe sinusförmig Ist die beobachtete Zeitreihe autoregressiv Was ist ein geeignetes Modell für die beobachtete Zeitreihe Ist das Modell gültig und ausreichend Ist die Formel ss / sqrt gültig Bedeutung: Sicherstellung der Gültigkeit der technischen Ergebnisse Randomness (zusammen mit festem Modell, fester Variation und fester Verteilung) Ist eine der vier Annahmen, die typischerweise allen Messprozessen zugrunde liegen. Die Zufallsannahme ist aus den folgenden drei Gründen von entscheidender Bedeutung: Die meisten standardmäßigen statistischen Tests hängen von der Zufälligkeit ab. Die Gültigkeit der Testresultate steht in direktem Zusammenhang mit der Gültigkeit der Zufallsannahme. Viele häufig verwendete statistische Formeln hängen von der Zufallsannahme ab, wobei die häufigste Formel die Formel zur Bestimmung der Standardabweichung des Stichprobenmittels ist: wobei s die Standardabweichung der Daten ist. Obwohl stark verwendet, sind die Ergebnisse aus der Verwendung dieser Formel ohne Wert, es sei denn, die Zufälligkeitsannahme gilt. Für univariate Daten ist das Standardmodell Wenn die Daten nicht zufällig sind, ist dieses Modell falsch und ungültig, und die Schätzungen für die Parameter (wie die Konstante) werden unsinnig und ungültig. Kurz, wenn der Analytiker nicht auf Zufälligkeit prüft, dann wird die Gültigkeit vieler statistischer Schlüsse verdächtig. Das Autokorrelationsdiagramm ist eine hervorragende Möglichkeit, auf solche Zufälligkeit zu prüfen.


No comments:

Post a Comment