Autoregressive Moving Average Autokorrelation


Zweck: Prüfen der Zufallszahlen Autokorrelationsdiagramme (Box und Jenkins, S. 28-32) sind ein gängiges Werkzeug zur Überprüfung der Zufälligkeit in einem Datensatz. Diese Zufälligkeit wird durch Berechnen von Autokorrelationen für Datenwerte bei variierenden Zeitverzögerungen ermittelt. Wenn sie zufällig sind, sollten solche Autokorrelationen nahezu null für irgendwelche und alle zeitlichen Verzögerungen sein. Wenn nicht-zufällig, dann werden eine oder mehrere der Autokorrelationen signifikant ungleich Null sein. Darüber hinaus werden Autokorrelationsdiagramme in der Modellidentifikationsstufe für autoregressive, gleitende mittlere Zeitreihenmodelle von Box-Jenkins verwendet. Autokorrelation ist nur ein Maß der Zufälligkeit Beachten Sie, dass unkorreliert nicht unbedingt zufällig bedeutet. Daten mit signifikanter Autokorrelation sind nicht zufällig. Daten, die keine signifikante Autokorrelation aufweisen, können jedoch auf andere Weise noch nicht-zufällig auftreten. Autokorrelation ist nur ein Maß der Zufälligkeit. Im Rahmen der Modellvalidierung (die der primäre Typ der Zufälligkeit ist, die wir im Handbuch behandeln) ist die Überprüfung auf Autokorrelation typischerweise ein ausreichender Test der Zufälligkeit, da die Residuen von schlechten Anpassungsmodellen dazu tendieren, nicht-subtile Zufälligkeit zu zeigen. Einige Anwendungen erfordern jedoch eine strengere Bestimmung der Zufälligkeit. In diesen Fällen wird eine Batterie von Tests, die eine Überprüfung auf Autokorrelation einschließen kann, angewandt, da Daten in vielen verschiedenen und oft subtilen Arten nicht-zufällig sein können. Ein Beispiel dafür, wo eine strengere Überprüfung der Zufälligkeit erforderlich ist, wäre das Testen von Zufallszahlengeneratoren. Beispiel-Diagramm: Autokorrelationen sollten nahe-Null für die Zufälligkeit sein. Dies ist bei diesem Beispiel nicht der Fall, so dass die Zufallsannahme fehlschlägt. Dieses Beispiel-Autokorrelationsdiagramm zeigt, dass die Zeitreihe nicht zufällig ist, sondern vielmehr einen hohen Grad an Autokorrelation zwischen benachbarten und nahe benachbarten Beobachtungen aufweist. Definition: r (h) versus h Autokorrelationsdiagramme werden durch vertikale Achse gebildet: Autokorrelationskoeffizient, wobei C h die Autokovarianzfunktion ist und C 0 die Varianzfunktion ist. Beachten Sie, dass R h zwischen -1 und 1 liegt Folgende Formel für die Autokovarianz-Funktion Obwohl diese Definition weniger Bias aufweist, weist die (1 N) - Formulierung einige wünschenswerte statistische Eigenschaften auf und ist die am häufigsten in der Statistikliteratur verwendete Form. Siehe Seiten 20 und 49-50 in Chatfield für Details. Horizontale Achse: Zeitverzögerung h (h 1, 2, 3.) Die obige Zeile enthält auch mehrere horizontale Bezugslinien. Die Mittellinie ist auf Null. Die anderen vier Zeilen sind 95 und 99 Konfidenzbänder. Beachten Sie, dass es zwei verschiedene Formeln für die Erzeugung der Vertrauensbänder gibt. Wenn das Autokorrelationsdiagramm verwendet wird, um auf Zufälligkeit zu testen (dh keine Zeitabhängigkeit in den Daten), wird die folgende Formel empfohlen: wobei N die Stichprobengröße ist, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha ) Ist das Signifikanzniveau. In diesem Fall haben die Vertrauensbänder eine feste Breite, die von der Probengröße abhängt. Dies ist die Formel, die verwendet wurde, um die Vertrauensbänder im obigen Diagramm zu erzeugen. Autokorrelationsdiagramme werden auch in der Modellidentifizierungsstufe für die Montage von ARIMA-Modellen verwendet. In diesem Fall wird für die Daten ein gleitendes Durchschnittsmodell angenommen und die folgenden Konfidenzbänder erzeugt: wobei k die Verzögerung, N die Stichprobengröße, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha) ist Das Signifikanzniveau. In diesem Fall nehmen die Vertrauensbänder zu, wenn die Verzögerung zunimmt. Das Autokorrelationsdiagramm kann Antworten auf die folgenden Fragen liefern: Sind die Daten zufällig Ist eine Beobachtung, die sich auf eine angrenzende Beobachtung bezieht, ist eine Beobachtung, die mit einer zweimal entfernten Beobachtung zusammenhängt (usw.) Ist die beobachtete Zeitreihe weißes Rauschen Ist die beobachtete Zeitreihe sinusförmig Ist die beobachtete Zeitreihe autoregressiv Was ist ein geeignetes Modell für die beobachtete Zeitreihe Ist das Modell gültig und ausreichend Ist die Formel sssqrt gültig Wichtigkeit: Sicherstellung der Gültigkeit von technischen Schlussfolgerungen Zufall (zusammen mit festem Modell, fester Variation und fester Verteilung) ist eins Der vier Annahmen, die typischerweise allen Messprozessen zugrunde liegen. Die Zufälligkeitsannahme ist aus den folgenden drei Gründen von entscheidender Bedeutung: Die meisten statistischen Standardtests hängen von der Zufälligkeit ab. Die Gültigkeit der Testresultate steht in direktem Zusammenhang mit der Gültigkeit der Zufallsannahme. Viele häufig verwendete statistische Formeln hängen von der Zufallsannahme ab, wobei die häufigste Formel die Formel zur Bestimmung der Standardabweichung des Stichprobenmittels ist: wobei s die Standardabweichung der Daten ist. Obwohl stark verwendet, sind die Ergebnisse aus der Verwendung dieser Formel ohne Wert, es sei denn, die Zufälligkeitsannahme gilt. Für univariate Daten ist das Standardmodell Wenn die Daten nicht zufällig sind, ist dieses Modell falsch und ungültig, und die Schätzungen für die Parameter (wie die Konstante) werden unsinnig und ungültig. Kurz, wenn der Analytiker nicht auf Zufälligkeit prüft, dann wird die Gültigkeit vieler statistischer Schlüsse verdächtig. Das Autokorrelationsdiagramm ist eine hervorragende Möglichkeit, diese Zufälligkeit zu überprüfen. Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 2 In Teil 1 betrachteten wir das Autoregressive Modell der Ordnung p, auch als AR (p) Modell. Wir führten es als eine Erweiterung des Zufallsmodells ein, um eine weitere serielle Korrelation in finanziellen Zeitreihen zu erläutern. Schließlich erkannten wir, dass es nicht genügend flexibel war, um alle Autokorrelationen in den Schlusskursen der Amazon Inc. (AMZN) und des SampP500 US Equity Index wirklich zu erfassen. Der Hauptgrund dafür ist, dass beide Vermögenswerte bedingt heteroskedastisch sind. Was bedeutet, dass sie nicht-stationär sind und Perioden variierender Varianz oder Volatilitäts-Clustering aufweisen, was von dem AR (p) - Modell nicht berücksichtigt wird. In künftigen Artikeln werden wir schließlich die Autoregressive Integrated Moving Average (ARIMA) Modelle sowie die bedingt heteroskedastischen Modelle der ARCH - und GARCH-Familien aufbauen. Diese Modelle werden uns unsere ersten realistischen Versuche zur Prognose von Vermögenspreisen bieten. In diesem Artikel werden wir jedoch die Moving Average der Ordnung q-Modell, bekannt als MA (q) einzuführen. Dies ist ein Teil des allgemeineren ARMA-Modells und als solches müssen wir es verstehen, bevor wir weitergehen. Ich empfehle Ihnen, lesen Sie die vorherigen Artikel in der Zeitreihe Analyse-Sammlung, wenn Sie dies nicht getan haben. Sie können alle hier gefunden werden. Moving Average (MA) Modelle der Ordnung q Ein Moving Average-Modell ähnelt einem Autoregressive-Modell, mit der Ausnahme, dass es sich nicht um eine lineare Kombination aus vergangenen Zeitreihenwerten handelt, sondern um eine lineare Kombination der vergangenen weißen Rauschterme. Intuitiv bedeutet dies, dass das MA-Modell solche zufälligen weißen Rauschschocks direkt bei jedem aktuellen Wert des Modells sieht. Dies steht im Gegensatz zu einem AR (p) - Modell, wo die weißen Rauschschocks nur indirekt gesehen werden. Über Regression auf frühere Ausdrücke der Reihe. Ein wesentlicher Unterschied besteht darin, dass das MA-Modell nur die letzten q-Schocks für ein bestimmtes MA (q) - Modell sehen wird, während das AR (p) - Modell alle vorherigen Schocks berücksichtigt, wenn auch in einer abnehmend schwachen Weise. Definition Mathematisch ist das MA (q) ein lineares Regressionsmodell und ist ähnlich strukturiert nach AR (p): Moving Average Modell der Ordnung q Ein Zeitreihenmodell ist ein gleitendes Durchschnittsmodell der Ordnung q. MA (q), wenn: Anfang xt wt beta1 w ldots betaq w Ende Whereis weißes Rauschen mit E (wt) 0 und Varianz sigma2. Wenn wir den Rückwärtsverschiebungsoperator betrachten (siehe vorherigen Artikel), dann können wir das oben beschriebene als eine Funktion phi folgendermaßen umschreiben: begin xt (1 beta1 beta2 2 ldots betaq q) wt phiq () wt end Wir werden das phi verwenden Funktion in späteren Artikeln. Eigenschaften der zweiten Ordnung Wie bei AR (p) ist der Mittelwert eines MA (q) - Verfahrens gleich Null. Dies ist leicht zu sehen, da der Mittelwert einfach eine Summe von Mitteln von weißen Rauschtermen ist, die alle selbst Null sind. Start Text enspace mux E (xt) Summe E (wi) 0 Ende Anfang Text enspace sigma2w (1 beta21 ldots beta2q) Ende Text enspace rhok links 1 Text enspace k 0 Summe Beta Beta Summe Beta2i Text enspace k 1, ldots, q 0 Text Enspace k gt q Ende rechts. Wo beta0 1. Wurden jetzt einige simulierte Daten generieren und verwenden, um correlograms zu erstellen. Dies wird die obige Formel für rhok etwas konkreter machen. Simulationen und Correlogramme Beginnen wir mit einem MA (1) - Prozess. Wenn wir beta1 0.6 setzen, erhalten wir das folgende Modell: Wie bei den AR (p) - Modellen im vorherigen Artikel können wir R verwenden, um eine solche Reihe zu simulieren und dann das Korrelogramm zu zeichnen. Da wir in der vorigen Zeitreihenanalyse eine Reihe von Übungen durchführen, werde ich den R-Code vollständig schreiben, anstatt ihn aufzuteilen: Die Ausgabe ist wie folgt: Wie wir oben in der Formel für rhok gesehen haben , Für k gt q sollten alle Autokorrelationen Null sein. Da q 1 ist, sollten wir einen signifikanten Peak bei k1 und dann danach signifikante Peaks sehen. Aufgrund der Stichprobenvorhersage sollten wir jedoch erwarten, dass 5 (marginal) signifikante Peaks auf einer Stichproben-Autokorrelationskurve zu sehen sind. Genau das zeigt uns das Korrelogramm. Wir haben einen signifikanten Peak bei k1 und dann unbedeutende Peaks für k gt 1, mit Ausnahme von k4, wo wir einen marginell signifikanten Peak haben. Tatsächlich ist dies eine nützliche Möglichkeit, zu sehen, ob ein MA (q) - Modell geeignet ist. Durch Betrachten des Korrelogramms einer bestimmten Reihe können wir sehen, wie viele sequenzielle Nicht-Null-Verzögerungen existieren. Wenn q solche Lags existieren, dann können wir legitimerweise versuchen, ein MA (q) - Modell an eine bestimmte Serie anzupassen. Da wir Beweise aus unseren simulierten Daten eines MA (1) - Prozesses haben, sollten wir nun versuchen, ein MA (1) - Modell an unsere simulierten Daten anzupassen. Leider gibt es keinen äquivalenten ma Befehl zum autoregressiven Modell ar Befehl in R. Stattdessen müssen wir den allgemeineren arima Befehl benutzen und die autoregressiven und integrierten Komponenten auf Null setzen. Dazu erstellen wir einen 3-Vektor und setzen die ersten beiden Komponenten (die autogressiven und integrierten Parameter) auf Null: Wir erhalten eine nützliche Ausgabe aus dem Befehl arima. Erstens können wir sehen, dass der Parameter als Hut 0.602 geschätzt wurde, der sehr nahe am wahren Wert von beta1 0,6 liegt. Zweitens sind die Standardfehler bereits für uns berechnet, so dass es einfach ist, Konfidenzintervalle zu berechnen. Drittens erhalten wir eine geschätzte Varianz, Log-Likelihood und Akaike Information Criterion (notwendig für Modellvergleich). Der Hauptunterschied zwischen arima und ar ist, dass arima einen Intercept-Term schätzt, da er den Mittelwert der Serie nicht subtrahiert. Daher müssen wir vorsichtig sein, wenn wir Vorhersagen mit dem Befehl arima durchführen. Nun wieder auf diesen Punkt später. Wie ein schneller Check wurden, um Konfidenzintervalle für Hut zu berechnen: Wir können sehen, dass die 95 Konfidenzintervall den wahren Parameterwert von beta1 0,6 enthält und so können wir beurteilen, das Modell eine gute Passform. Offensichtlich sollte das erwartet werden, da wir die Daten an erster Stelle simuliert haben. Wie ändern sich die Dinge, wenn wir das Vorzeichen von beta1 auf -0.6 ändern, können wir die gleiche Analyse durchführen: Die Ausgabe ist wie folgt: Wir können sehen, dass wir bei k1 einen signifikanten Wert haben Peak im Korrelogramm, mit der Ausnahme, dass es eine negative Korrelation zeigt, wie sie von einem MA (1) - Modell mit negativem ersten Koeffizienten erwartet wird. Wiederum sind alle Peaks jenseits von k1 unbedeutend. Ermöglicht ein MA (1) - Modell und schätzen den Parameter: Hut -0.730, was eine kleine Unterbewertung von beta1 -0.6 ist. Schließlich lässt sich das Konfidenzintervall berechnen: Wir können sehen, dass der wahre Parameterwert von beta1-0.6 innerhalb des 95 Konfidenzintervalls enthalten ist, was uns den Beweis für ein gutes Modell passt. Lass uns das gleiche Verfahren für einen MA (3) Prozess durchlaufen. Diesmal sollten signifikante Peaks bei k in und unbedeutende Peaks für kgt 3 erwartet werden. Wir verwenden die folgenden Koeffizienten: beta1 0,6, beta2 0,4 und beta3 0,2. Wir können einen MA (3) Prozess von diesem Modell simulieren. Ive erhöhte die Anzahl der zufälligen Proben auf 1000 in dieser Simulation, was es leichter macht, die wahre Autokorrelationsstruktur zu sehen, und zwar auf Kosten der Herstellung der Originalreihe schwerer zu interpretieren: Die Ausgabe ist wie folgt: Wie erwartet sind die ersten drei Spitzen signifikant . Jedoch ist so das vierte. Aber wir können legitim vorschlagen, dass dies auf eine Stichprobe zurückzuführen ist, da wir erwarten, dass 5 der Peaks signifikant über kq liegen. Nun kann ein MA (3) - Modell an die Daten angepasst werden, um zu versuchen, Parameter zu schätzen: Die Schätzwerte Hut 0,544, Hut 0,345 und Hut 0,228 sind nahe an den wahren Werten von beta10,6, beta20,4 bzw. beta30,3. Wir können auch Konfidenzintervalle mit den jeweiligen Standardfehlern erzeugen: In jedem Fall enthalten die 95 Konfidenzintervalle den wahren Parameterwert und wir können schließen, dass wir, wie zu erwarten, gut mit unserem MA (3) - Modell übereinstimmen. Finanzdaten In Teil 1 betrachteten wir Amazon Inc. (AMZN) und den SampP500 US Equity Index. Wir passten das AR (p) - Modell an beide an und fanden, dass das Modell nicht in der Lage war, die Komplexität der seriellen Korrelation effektiv zu erfassen, vor allem im Guss des SampP500, wo Langzeitgedächtniseffekte zu sein scheinen. Ich wont plot die Diagramme wieder für die Preise und Autokorrelation, statt Ill weisen Sie auf die vorherige Post. Amazon Inc. (AMZN) Beginnen wir mit dem Versuch, eine Auswahl von MA (q) - Modellen an AMZN, nämlich mit q in passen. Wie in Teil 1, verwenden Sie quantmod, um die Tagespreise für AMZN herunterzuladen und sie dann in ein Protokoll umzuwandeln, um den Strom der Schlusskurse wiederherzustellen: Nachdem wir das Protokoll zurückgegeben haben, können wir den Befehl arima verwenden, um MA (1), MA zu entsprechen (2) und MA (3) - Modellen und schätzen dann die Parameter von jedem. Für MA (1) haben wir: Wir können die Residuen der täglichen Logarithmen und des angepassten Modells darstellen: Beachten Sie, dass wir einige signifikante Peaks bei den Lags k2, k11, k16 und k18 haben, was anzeigt, dass das MA (1) - Modell ist Unwahrscheinlich, dass eine gute Passform für das Verhalten der AMZN-Log-Rückkehr, da dies nicht aussehen wie eine Verwirklichung von weißem Rauschen. Lets try ein MA (2) - Modell: Beide Schätzungen für die Beta-Koeffizienten sind negativ. Wir können die Residuen wieder zeichnen: Wir können sehen, dass es fast Null Autokorrelation in den ersten paar Verzögerungen. Allerdings haben wir fünf marginale signifikante Peaks bei den Verzögerungen k12, k16, k19, k25 und k27. Dies ist naheliegend, dass das MA (2) - Modell viel von der Autokorrelation erfasst, aber nicht alle Langzeitspeicher-Effekte. Wie sieht es mit einem MA (3) - Modell aus? Wiederum können die Residuen geplottet werden: Das MA (3) Residualplot sieht fast identisch mit dem MA (2) - Modell aus. Dies ist nicht verwunderlich, wie das Hinzufügen eines neuen Parameters zu einem Modell, scheinbar erklärt hat viel von den Korrelationen bei kürzeren Verzögerungen, aber das hat nicht viel Einfluss auf die längerfristigen Verzögerungen. Alle diese Beweise deuten darauf hin, dass ein MA (q) - Modell ist unwahrscheinlich, dass es nützlich sein, zu erklären, alle der seriellen Korrelation in Isolation. Zumindest für AMZN. SampP500 Wenn Sie sich erinnern, in Teil 1 sahen wir, dass die erste Reihenfolge differenzierte tägliche Log Rückkehr Struktur des SampP500 besaß viele signifikante Peaks bei verschiedenen Lags, sowohl kurz als auch lang. Dies zeigte sowohl die bedingte Heteroskedastizität (d. H. Die Volatilitäts-Clusterbildung) als auch die Langzeitspeicher-Effekte. Es führte zu dem Schluss, dass das AR (p) - Modell nicht ausreicht, um die gesamte vorhandene Autokorrelation zu erfassen. Wie wir oben gesehen haben, reicht das MA (q) - Modell nicht aus, um zusätzliche Serienkorrelationen in den Resten des eingebauten Modells auf die differenzierten täglichen Log-Preisreihen erster Ordnung zu erfassen. Wir werden nun versuchen, das MA (q) - Modell an den SampP500 anzupassen. Man könnte fragen, warum wir dies tun, wenn wir wissen, dass es unwahrscheinlich, dass eine gute Passform ist. Das ist eine gute Frage. Die Antwort ist, dass wir genau sehen müssen, wie es nicht eine gute Passform ist, denn dies ist der ultimative Prozess, dem wir folgen werden, wenn wir auf sehr viel anspruchsvollere Modelle stoßen, die möglicherweise schwerer zu interpretieren sind. Lets beginnen mit dem Erhalten der Daten und die Umwandlung in eine erste Reihenfolge differenzierte Reihe von logarithmisch umgewandelt täglichen Schlusskurse wie im vorherigen Artikel: Wir werden jetzt ein MA (1), MA (2) und MA (3) - Modell zu passen Die Serie, wie wir oben für AMZN. Beginnen wir mit MA (1): Machen wir eine Auftragung der Residuen dieses angepassten Modells: Der erste signifikante Peak tritt bei k2 auf, aber es gibt viel mehr bei k in. Dies ist eindeutig keine Verwirklichung von weißem Rauschen und deshalb müssen wir das MA (1) - Modell als eine für den SampP500 geeignete Potenz ablehnen. (2) Wiederum lassen sich die Residuen dieses angepassten MA (2) - Modells machen: Während der Peak bei k2 verschwunden ist (wie wir es erwarten), bleiben wir mit den signifikanten Peaks bei Viele längere Verzögerungen in den Resten. Noch einmal, finden wir das MA (2) - Modell ist nicht eine gute Passform. Für das MA (3) - Modell ist zu erwarten, dass bei k3 weniger serielle Korrelation als bei der MA (2) zu sehen ist, doch sollten wir auch hier keine Reduzierung weiterer Verzögerungen erwarten. Schließlich lässt sich eine Auftragung der Residuen dieses angepassten MA (3) - Modells machen: Genau das sehen wir im Korrelogramm der Residuen. Daher ist die MA (3), wie bei den anderen Modellen oben, nicht gut für den SampP500 geeignet. Die nächsten Schritte Weve untersuchte nun zwei große Zeitreihenmodelle im Detail, nämlich das autogressive Modell der Ordnung p, AR (p) und dann den Moving Average der Ordnung q, MA (q). Wir haben gesehen, dass sie beide in der Lage sind, einige der Autokorrelation in den Resten der ersten Ordnung differenzierte tägliche Log-Preise von Aktien und Indizes weg zu erklären, aber Volatilitäts-Clustering und Lang-Speicher-Effekte bestehen. Es ist endlich Zeit, unsere Aufmerksamkeit auf die Kombination dieser beiden Modelle, nämlich der Autoregressive Moving Average der Ordnung p, q, ARMA (p, q) zu lenken, um zu sehen, ob es die Situation weiter verbessern wird. Allerdings müssen wir warten, bis der nächste Artikel für eine vollständige Diskussion Klicken Sie unten, um mehr darüber zu erfahren. Die Informationen auf dieser Website ist die Meinung der einzelnen Autoren auf der Grundlage ihrer persönlichen Beobachtung, Forschung und jahrelange Erfahrung. Der Herausgeber und seine Autoren sind nicht registrierte Anlageberater, Rechtsanwälte, CPAs oder andere Finanzdienstleister und machen keine Rechts-, Steuer-, Rechnungswesen, Anlageberatung oder andere professionelle Dienstleistungen. Die Informationen, die von dieser Web site angeboten werden, sind nur allgemeine Ausbildung. Weil jeder Einzelne sachliche Situation anders ist, sollte der Leser seinen persönlichen Berater suchen. Weder der Autor noch der Herausgeber übernehmen jegliche Haftung oder Verantwortung für Fehler oder Auslassungen und haben weder eine Haftung noch Verantwortung gegenüber Personen oder Körperschaften in Bezug auf Schäden, die direkt oder indirekt durch die auf dieser Website enthaltenen Informationen verursacht oder vermutet werden. Benutzung auf eigene Gefahr. Darüber hinaus kann diese Website erhalten finanzielle Entschädigung von den Unternehmen erwähnt durch Werbung, Affiliate-Programme oder auf andere Weise. Preise und Angebote von Inserenten auf dieser Website ändern sich häufig, manchmal ohne Vorankündigung. Während wir uns bemühen, rechtzeitige und genaue Informationen aufrechtzuerhalten, können Angebot Details veraltet sein. Besucher sollten daher die Bedingungen dieser Angebote vor der Teilnahme an ihnen überprüfen. Der Autor und sein Herausgeber haften nicht für die Aktualisierung der Informationen und haften nicht für Inhalte, Produkte und Dienstleistungen von Drittanbietern, auch wenn sie über Hyperlinks und Anzeigen auf dieser Website aufgerufen werden. RIMA steht für Autoregressive Integrated Moving Average-Modelle. Univariate (Einzelvektor) ARIMA ist eine Prognosemethode, die die zukünftigen Werte einer Serie, die vollständig auf ihrer eigenen Trägheit basiert, projiziert. Seine Hauptanwendung liegt im Bereich der kurzfristigen Prognose mit mindestens 40 historischen Datenpunkten. Es funktioniert am besten, wenn Ihre Daten eine stabile oder konsistente Muster im Laufe der Zeit mit einem Minimum an Ausreißern zeigt. Manchmal nennt man Box-Jenkins (nach den ursprünglichen Autoren), ARIMA ist in der Regel überlegen exponentielle Glättung Techniken, wenn die Daten relativ lange und die Korrelation zwischen vergangenen Beobachtungen ist stabil. Wenn die Daten kurz oder stark flüchtig sind, kann eine gewisse Glättungsmethode besser ablaufen. Wenn Sie nicht über mindestens 38 Datenpunkte verfügen, sollten Sie eine andere Methode als ARIMA betrachten. Der erste Schritt bei der Anwendung der ARIMA-Methodik ist die Überprüfung der Stationarität. Stationarität impliziert, dass die Reihe auf einem ziemlich konstanten Niveau über Zeit bleibt. Wenn ein Trend besteht, wie in den meisten wirtschaftlichen oder geschäftlichen Anwendungen, dann sind Ihre Daten nicht stationär. Die Daten sollten auch eine konstante Varianz in ihren Schwankungen im Laufe der Zeit zeigen. Dies ist leicht zu sehen mit einer Serie, die stark saisonal und wächst mit einer schnelleren Rate. In einem solchen Fall werden die Höhen und Tiefen der Saisonalität im Laufe der Zeit dramatischer. Ohne dass diese Stationaritätsbedingungen erfüllt sind, können viele der mit dem Prozess verbundenen Berechnungen nicht berechnet werden. Wenn eine grafische Darstellung der Daten Nichtstationarität anzeigt, dann sollten Sie die Serie unterscheiden. Die Differenzierung ist eine hervorragende Möglichkeit, eine nichtstationäre Serie in eine stationäre zu transformieren. Dies geschieht durch Subtrahieren der Beobachtung in der aktuellen Periode von der vorherigen. Wenn diese Transformation nur einmal zu einer Reihe erfolgt, sagen Sie, dass die Daten zuerst unterschieden wurden. Dieser Prozess im Wesentlichen eliminiert den Trend, wenn Ihre Serie wächst mit einer ziemlich konstanten Rate. Wenn es mit steigender Rate wächst, können Sie das gleiche Verfahren anwenden und die Daten erneut differenzieren. Ihre Daten würden dann zweite differenziert werden. Autokorrelationen sind Zahlenwerte, die angeben, wie sich eine Datenreihe mit der Zeit auf sich bezieht. Genauer gesagt misst es, wie stark Datenwerte bei einer bestimmten Anzahl von Perioden auseinander über die Zeit miteinander korreliert werden. Die Anzahl der Perioden wird in der Regel als Verzögerung bezeichnet. Zum Beispiel mißt eine Autokorrelation bei Verzögerung 1, wie die Werte 1 Periode auseinander in der Reihe miteinander korreliert sind. Eine Autokorrelation bei Verzögerung 2 misst, wie die Daten, die zwei Perioden voneinander getrennt sind, über die gesamte Reihe miteinander korrelieren. Autokorrelationen können im Bereich von 1 bis -1 liegen. Ein Wert nahe 1 gibt eine hohe positive Korrelation an, während ein Wert nahe -1 impliziert eine hohe negative Korrelation. Diese Maßnahmen werden meist durch grafische Darstellungen, sogenannte Korrelagramme, ausgewertet. Ein Korrelationsdiagramm zeigt die Autokorrelationswerte für eine gegebene Reihe bei unterschiedlichen Verzögerungen. Dies wird als Autokorrelationsfunktion bezeichnet und ist bei der ARIMA-Methode sehr wichtig. Die ARIMA-Methodik versucht, die Bewegungen in einer stationären Zeitreihe als Funktion der so genannten autoregressiven und gleitenden Durchschnittsparameter zu beschreiben. Diese werden als AR-Parameter (autoregessiv) und MA-Parameter (gleitende Mittelwerte) bezeichnet. Ein AR-Modell mit nur einem Parameter kann als geschrieben werden. X (t) A (1) X (t-1) E (t) wobei X (t) Zeitreihen A (1) der autoregressive Parameter der Ordnung 1 X (t-1) (T) der Fehlerterm des Modells Dies bedeutet einfach, dass jeder gegebene Wert X (t) durch eine Funktion seines vorherigen Wertes X (t-1) plus einen unerklärlichen Zufallsfehler E (t) erklärt werden kann. Wenn der geschätzte Wert von A (1) 0,30 betrug, dann wäre der aktuelle Wert der Reihe mit 30 seines vorherigen Wertes 1 verknüpft. Natürlich könnte die Serie auf mehr als nur einen vergangenen Wert bezogen werden. Zum Beispiel ist X (t) A (1) X (t-1) A (2) X (t-2) E (t) Dies zeigt an, dass der aktuelle Wert der Reihe eine Kombination der beiden unmittelbar vorhergehenden Werte ist, X (t-1) und X (t-2) zuzüglich eines Zufallsfehlers E (t). Unser Modell ist nun ein autoregressives Modell der Ordnung 2. Moving Average Models: Eine zweite Art von Box-Jenkins-Modell wird als gleitendes Durchschnittsmodell bezeichnet. Obwohl diese Modelle dem AR-Modell sehr ähnlich sind, ist das Konzept dahinter ganz anders. Bewegliche Durchschnittsparameter beziehen sich auf das, was in der Periode t stattfindet, nur auf die zufälligen Fehler, die in vergangenen Zeitperioden aufgetreten sind, dh E (t-1), E (t-2) usw. anstatt auf X (t-1), X T-2), (Xt-3) wie in den autoregressiven Ansätzen. Ein gleitendes Durchschnittsmodell mit einem MA-Begriff kann wie folgt geschrieben werden. X (t) - B (1) E (t-1) E (t) Der Begriff B (1) wird als MA der Ordnung 1 bezeichnet. Das negative Vorzeichen vor dem Parameter wird nur für Konventionen verwendet und in der Regel ausgedruckt Automatisch von den meisten Computerprogrammen. Das obige Modell sagt einfach, dass jeder gegebene Wert von X (t) direkt nur mit dem Zufallsfehler in der vorherigen Periode E (t-1) und mit dem aktuellen Fehlerterm E (t) zusammenhängt. Wie im Fall von autoregressiven Modellen können die gleitenden Durchschnittsmodelle auf übergeordnete Strukturen mit unterschiedlichen Kombinationen und gleitenden mittleren Längen erweitert werden. Die ARIMA-Methodik erlaubt es auch, Modelle zu erstellen, die sowohl autoregressive als auch gleitende Durchschnittsparameter zusammenführen. Diese Modelle werden oft als gemischte Modelle bezeichnet. Obwohl dies für eine kompliziertere Prognose-Tool macht, kann die Struktur tatsächlich simulieren die Serie besser und produzieren eine genauere Prognose. Pure Modelle implizieren, dass die Struktur nur aus AR oder MA-Parameter besteht - nicht beides. Die Modelle, die von diesem Ansatz entwickelt werden, werden in der Regel als ARIMA-Modelle bezeichnet, da sie eine Kombination aus autoregressiver (AR), Integration (I) verwenden, die auf den umgekehrten Prozess der Differenzierung zur Erzeugung der Prognose und der MA-Operationen hinweist. Ein ARIMA-Modell wird üblicherweise als ARIMA (p, d, q) angegeben. Dies ist die Reihenfolge der autoregressiven Komponenten (p), der Anzahl der differenzierenden Operatoren (d) und der höchsten Ordnung des gleitenden Mittelwerts. Beispielsweise bedeutet ARIMA (2,1,1), dass Sie ein autoregressives Modell zweiter Ordnung mit einer gleitenden mittleren Komponente erster Ordnung haben, deren Serie einmal differenziert wurde, um die Stationarität zu induzieren. Auswahl der richtigen Spezifikation: Das Hauptproblem in der klassischen Box-Jenkins versucht zu entscheiden, welche ARIMA-Spezifikation zu verwenden - i. e. Wie viele AR - und / oder MA-Parameter einzuschließen sind. Dies ist, was viel von Box-Jenkings 1976 dem Identifikationsprozeß gewidmet wurde. Es hing von der graphischen und numerischen Auswertung der Stichprobenautokorrelation und der partiellen Autokorrelationsfunktionen ab. Nun, für Ihre grundlegenden Modelle, ist die Aufgabe nicht allzu schwierig. Jeder hat Autokorrelationsfunktionen, die eine bestimmte Weise aussehen. Allerdings, wenn Sie gehen in der Komplexität, die Muster sind nicht so leicht zu erkennen. Um es schwieriger zu machen, stellen Ihre Daten nur eine Probe des zugrundeliegenden Prozesses dar. Das bedeutet, dass Stichprobenfehler (Ausreißer, Messfehler etc.) den theoretischen Identifikationsprozess verzerren können. Deshalb ist die traditionelle ARIMA-Modellierung eher eine Kunst als eine Wissenschaft.

Comments

Popular Posts