Uchambuzi na utabiri wa mfululizo wa saa

Orodha ya maudhui:

Uchambuzi na utabiri wa mfululizo wa saa
Uchambuzi na utabiri wa mfululizo wa saa
Anonim

Kwa miaka mingi, watu wametabiri hali ya hewa, matukio ya kiuchumi na kisiasa na matokeo ya michezo, hivi majuzi orodha hii pana imejazwa tena kwa kutumia sarafu za siri. Kwa kutabiri matukio anuwai, kuna njia nyingi za kukuza utabiri. Kwa mfano, angavu, maoni ya wataalamu, kutumia matokeo ya awali kulinganisha na takwimu za kitamaduni, na utabiri wa mfululizo wa saa ni mojawapo tu ya hizo, huku aina ya kisasa na sahihi zaidi ya utabiri wenye matumizi mbalimbali.

Mbinu ya mfululizo wa saa

Mbinu ya mfululizo wa wakati
Mbinu ya mfululizo wa wakati

Mbinu ya mfululizo wa saa (TS) ni mkusanyiko wa data unaokusanya taarifa kwa muda fulani. Kuna mbinu maalum za kuchimba aina hii:

  • ya mstari na isiyo ya mstari;
  • parametric na zisizo za kigezo;
  • mwenye-dimensional na multidimensional.

Wakati wa utabirimfululizo huleta seti ya kipekee ya uwezo wa kukabiliana na changamoto za leo. Uundaji wa muundo hutegemea kujifunza ili kuanzisha nguvu inayoendesha nyuma ya mabadiliko ya data. Mchakato unatokana na mitindo ya muda mrefu, athari za msimu, au mabadiliko yasiyo ya kawaida ambayo ni tabia ya TS na hayaonekani katika aina zingine za uchanganuzi.

Kujifunza kwa mashine ni tawi la sayansi ya kompyuta ambapo algoriti hutungwa kutoka kwa data na kujumuisha mitandao ya neva bandia, kujifunza kwa kina, sheria za ushirika, miti ya maamuzi, mafunzo ya uimarishaji na mitandao ya Bayesian. Aina mbalimbali za algoriti hutoa chaguo za kutatua matatizo, na kila moja ina mahitaji yake na ubadilishanaji wa mapato kulingana na uingizaji wa data, kasi na usahihi wa matokeo. Haya, pamoja na usahihi wa ubashiri wa mwisho, yatapimwa wakati mtumiaji ataamua ni algoriti gani itafanya kazi vyema zaidi kwa hali inayochunguzwa.

Utabiri wa mfululizo wa saa hukopa kutoka kwa uga wa takwimu, lakini unatoa mbinu mpya za uundaji wa matatizo. Tatizo kuu la ujifunzaji wa mashine na mfululizo wa saa ni sawa - kutabiri matokeo mapya kulingana na data iliyojulikana awali.

Lengo la modeli ya ubashiri

Kusudi la mfano wa utabiri
Kusudi la mfano wa utabiri

TS ni seti ya pointi za data zinazokusanywa kwa vipindi vya kawaida. Huchanganuliwa ili kubaini mwelekeo wa muda mrefu, kutabiri siku zijazo, au kufanya aina nyingine ya uchanganuzi. Kuna vitu 2 ambavyo hufanya TS kuwa tofauti na shida ya kawaida ya urekebishaji:

  1. Zinategemea wakati. Kwa hiyodhana ya msingi ya modeli ya urejeshaji ya mstari ambayo uchunguzi ni huru haipo katika hali hii.
  2. Pamoja na mwelekeo unaoongezeka au kupungua, TS nyingi zina aina fulani ya msimu, yaani mabadiliko ambayo ni mahususi kwa kipindi fulani cha muda.

Lengo la muundo wa utabiri wa mfululizo wa saa ni kutoa utabiri sahihi kuhusu mahitaji. Msururu wa saa una wakati (t) kama kigezo huru na kigezo tegemezi lengwa. Katika hali nyingi, utabiri ni matokeo maalum, kwa mfano, bei ya uuzaji wa nyumba, matokeo ya michezo ya ushindani, matokeo ya biashara kwenye soko la hisa. Utabiri unawakilisha wastani na wastani na unajumuisha muda wa kujiamini unaoonyesha kiwango cha kujiamini katika masafa ya 80-95%. Zinaporekodiwa kwa vipindi vya kawaida, michakato huitwa mfululizo wa saa na huonyeshwa kwa njia mbili:

  • dimensional moja yenye faharasa ya saa inayounda mpangilio kamili;
  • seti yenye vipimo viwili: muda wenye kigezo huru na kigezo kingine tegemezi.

Kuunda vipengele ni mojawapo ya kazi muhimu na zinazotumia muda mwingi katika kujifunza kwa kutumia mashine. Walakini, utabiri wa mfululizo wa saa hauundi vipengele, angalau si kwa maana ya jadi. Hii ni kweli hasa unapotaka kutabiri matokeo hatua kadhaa mbele, na si tu thamani inayofuata.

Hii haimaanishi kuwa vipengele vimezimwa kabisa. Ni lazima zitumike kwa tahadhari kwa sababu zifuatazo:

  1. Sijui ni nini kitatokea siku zijazothamani zitakuwa za vipengele hivi.
  2. Ikiwa vipengee vinaweza kutabirika na vina muundo fulani, unaweza kuunda muundo wa kubashiri kwa kila moja wapo.

Hata hivyo, fahamu kuwa kutumia thamani za ubashiri kama vipengele kutaeneza hitilafu kwenye kigezo lengwa na kusababisha makosa au ubashiri ulioegemea upande mmoja.

Vipengee vya mfululizo wa saa

Vipengele vya mfululizo wa wakati
Vipengele vya mfululizo wa wakati

Mtindo huwa wakati mfululizo unaongezeka, unapungua au kubaki katika kiwango kisichobadilika baada ya muda, kwa hivyo inachukuliwa kama chaguo la kukokotoa. Msimu hurejelea sifa ya mfululizo wa saa unaoonyesha ruwaza za muda zinazojirudia kwa marudio yasiyobadilika (m), kwa mfano, m=12 inamaanisha mchoro unaorudiwa kila baada ya miezi kumi na miwili.

Vigezo vya Dummy sawa na msimu vinaweza kuongezwa kama chaguo za kukokotoa. Unaweza, kwa mfano, kuzingatia likizo, matukio maalum, kampeni za masoko, bila kujali kama thamani ni ya kigeni au la. Hata hivyo, unahitaji kukumbuka kwamba vigezo hivi lazima ziwe na mifumo fulani. Hata hivyo, idadi ya siku inaweza kuhesabiwa kwa urahisi hata kwa vipindi vijavyo na kuathiri utabiri wa mfululizo wa saa, hasa katika eneo la fedha.

Mizunguko ni misimu ambayo haifanyiki kwa kasi maalum. Kwa mfano, sifa za uzazi za kila mwaka za lynx wa Kanada zinaonyesha mifumo ya msimu na mzunguko. Hazirudii kwa vipindi vya kawaida na zinaweza kutokea hata kama marudio ni 1 (m=1).

Thamani zilizochelewa -maadili ya chini ya kutofautisha yanaweza kujumuishwa kama watabiri. Baadhi ya miundo, kama vile ARIMA, Vector Autoregression (VAR), au Mitandao ya Neural Autoregressive (NNAR), hufanya kazi kwa njia hii.

Vipengee vya utofauti wa mambo yanayokuvutia ni muhimu sana kwa uchanganuzi na utabiri wa mfululizo wa saa, ili kuelewa tabia zao, mifumo na kuweza kuchagua muundo unaofaa.

Sifa za seti ya data

Sifa za Seti ya Data
Sifa za Seti ya Data

Huenda umezoea kuweka maelfu, mamilioni na mabilioni ya pointi za data kwenye miundo ya mashine ya kujifunza, lakini hii haihitajiki kwa mfululizo wa saa. Kwa kweli, inawezekana kufanya kazi na TS ndogo na za kati, kulingana na mzunguko na aina ya kutofautiana, na hii sio hasara ya njia. Zaidi ya hayo, kuna faida kadhaa za mbinu hii:

  1. Seti kama hizo za maelezo zitalingana na uwezo wa kompyuta ya nyumbani.
  2. Katika baadhi ya matukio, fanya uchanganuzi wa mfululizo wa saa na utabiri kwa kutumia seti nzima ya data, si sampuli pekee.
  3. Urefu wa TS ni muhimu kwa kuunda grafu zinazoweza kuchanganuliwa. Hili ni jambo muhimu sana kwa sababu waandaaji wa programu hutegemea michoro katika awamu ya uchanganuzi. Hii haimaanishi kuwa hazifanyi kazi na mfululizo mkubwa wa saa, lakini mwanzoni zinafaa kuwa na uwezo wa kushughulikia TS ndogo zaidi.
  4. Seti yoyote ya data iliyo na sehemu inayohusiana na wakati inaweza kunufaika kutokana na uchanganuzi na utabiri wa mfululizo wa saa. Walakini, ikiwa programu ina seti kubwa ya data, DB (TSDB)inaweza kufaa zaidi.

Baadhi ya seti hizi hutoka kwenye matukio yaliyorekodiwa kwa muhuri wa muda, kumbukumbu za mfumo na data ya fedha. Kwa kuwa TSDB hufanya kazi asili na mfululizo wa saa, hii ni fursa nzuri ya kutumia mbinu hii kwa mkusanyiko mkubwa wa data.

Kujifunza kwa mashine

Kujifunza kwa mashine (ML) kunaweza kushinda mbinu za kawaida za utabiri wa mfululizo wa saa. Kuna tafiti nyingi huko nje zinazolinganisha mbinu za kujifunza kwa mashine na mbinu za kitakwimu zaidi kwenye data ya TS. Mitandao ya neva ni mojawapo ya teknolojia ambazo zimetafitiwa sana na kutumia mbinu za TS. Mbinu za kujifunza mashine huongoza katika viwango vya ukusanyaji wa data kulingana na mfululizo wa saa. Seti hizi zimethibitishwa kuwa bora, na zinazofanya kazi vizuri zaidi kuliko seti safi za TS dhidi ya M3 au Kaggle.

MO ina matatizo yake mahususi. Kutengeneza vipengele au kutengeneza vitabiri vipya kutoka kwa mkusanyiko wa data ni hatua muhimu kwake na kunaweza kuwa na athari kubwa kwenye utendakazi na kuwa njia muhimu ya kushughulikia masuala ya mienendo na msimu wa data ya TS. Pia, baadhi ya miundo ina matatizo na jinsi inavyotoshea data, na ikiwa haitoi, inaweza kukosa mwelekeo mkuu.

Mfululizo wa muda na mbinu za kujifunza kwa mashine hazipaswi kuwepo kwa kutengwa. Wanaweza kuunganishwa pamoja ili kutoa faida za kila mbinu. Mbinu za utabiri na uchanganuzi wa mfululizo wa saa ni nzuri katika kugawanya data katika data ya mwenendo na misimu.vipengele. Kisha uchanganuzi huu unaweza kutumika kama ingizo kwa muundo wa ML ambao una maelezo yanayovuma na ya msimu katika kanuni zake, na kutoa matokeo bora zaidi ya ulimwengu wote.

Kuelewa kauli ya tatizo

Kwa mfano, zingatia TS inayohusiana na kutabiri idadi ya abiria kwenye huduma mpya ya reli ya kasi ya juu. Kwa mfano, una data ya miaka 2 (Agosti 2016 - Septemba 2018) na kwa data hii unahitaji kutabiri idadi ya abiria kwa miezi 7 ijayo, kuwa na data ya miaka 2 (2016-2018) kwa kiwango cha saa na idadi ya abiria wanaosafiri, na ni muhimu kukadiria idadi yao katika siku zijazo.

Seti ndogo ya data kwa ajili ya utabiri yenye mfululizo wa saa:

  1. Kuunda treni na faili ya majaribio kwa ajili ya kuiga.
  2. Miezi 14 ya kwanza (Ago 2016 - Okt 2017) hutumika kama data ya mafunzo, na miezi 2 ijayo (Nov 2017 - Des 2017) ni data ya majaribio.
  3. Kusanya mkusanyiko wa data kila siku.
Mkusanyiko wa seti ya data
Mkusanyiko wa seti ya data

Tekeleza taswira ya data ili kuona jinsi inavyobadilika kwa muda fulani.

Taswira ya data
Taswira ya data

Njia ya ujenzi ya Mbinu Isiyojua

Maktaba inayotumika katika kesi hii kwa utabiri wa TS ni miundo ya takwimu. Ni lazima isanikishwe kabla mojawapo ya mbinu hizi kutumika. Labda statsmodels tayari imewekwa katika mazingira ya Python, lakini haitumii njiautabiri, kwa hivyo utahitaji kuiga kutoka kwa hazina na kuisakinisha kutoka kwa chanzo.

Kufuatana
Kufuatana

Kwa mfano huu, inamaanisha kuwa bei za usafiri za sarafu ni thabiti tangu mwanzo na katika kipindi chote cha muda. Mbinu hii inachukulia kuwa hatua inayofuata inayotarajiwa ni sawa na sehemu ya mwisho iliyoangaliwa na inaitwa Njia ya Naive.

Njia ya Ujinga
Njia ya Ujinga

Sasa hesabu mkengeuko wa kawaida ili kupima usahihi wa muundo kwenye mkusanyiko wa data wa majaribio. Kutoka kwa thamani ya RMSE na grafu iliyo hapo juu, tunaweza kuhitimisha kuwa Naive haifai kwa chaguo tete za juu, lakini inatumika kwa zile dhabiti.

Mtindo rahisi wa wastani

Ili kuonyesha mbinu, chati imechorwa, ikizingatiwa kuwa mhimili wa Y unawakilisha bei na mhimili wa X unawakilisha wakati (siku).

Mtindo Rahisi wa Kati
Mtindo Rahisi wa Kati

Kutokana nayo tunaweza kuhitimisha kuwa bei huongezeka na kupungua bila mpangilio kwa ukingo mdogo, ili thamani ya wastani ibaki thabiti. Katika hali hii, unaweza kutabiri bei ya kipindi kijacho, sawa na wastani wa siku zote zilizopita.

Mbinu hii ya utabiri yenye wastani unaotarajiwa wa pointi zilizozingatiwa hapo awali inaitwa mbinu rahisi ya wastani.

Katika hali hii, thamani zilizojulikana awali huchukuliwa, wastani huhesabiwa na kuchukuliwa kama thamani inayofuata. Bila shaka, hii haitakuwa sawa, lakini iko karibu sana, na kuna hali ambapo njia hii hufanya kazi vyema zaidi.

Rahisi Katinjia
Rahisi Katinjia

Kulingana na matokeo yanayoonyeshwa kwenye jedwali, njia hii hufanya kazi vyema zaidi wakati thamani ya wastani katika kila kipindi inabaki bila kubadilika. Ingawa njia ya kutojua ni bora kuliko wastani, lakini sio kwa hifadhidata zote. Inapendekezwa kujaribu kila muundo hatua kwa hatua na uone ikiwa itaboresha matokeo au la.

Moving Average Model

Mfano wa wastani wa kusonga
Mfano wa wastani wa kusonga

Kulingana na chati hii, tunaweza kuhitimisha kuwa bei zimeongezeka mara kadhaa hapo awali kwa ukingo mpana, lakini sasa ziko thabiti. Ili kutumia mbinu ya awali ya wastani, unahitaji kuchukua wastani wa data zote za awali. Bei za kipindi cha kwanza zitaathiri pakubwa utabiri wa kipindi kijacho. Kwa hivyo, kama uboreshaji wa wastani rahisi, chukua wastani wa bei kwa vipindi vichache vya hivi karibuni vya wakati.

Mbinu hii ya utabiri inaitwa mbinu ya wastani ya kusonga, wakati mwingine inajulikana kama "dirisha linalosonga" la ukubwa wa "n"". Kutumia mfano rahisi, thamani inayofuata katika TS inatabiriwa kuangalia usahihi wa njia. Wastani wa Kusonga wa Seti hii ya data ni wazi zaidi ya Wastani na Wastani wa Kusonga.

Kuna lahaja la utabiri kwa mbinu ya ulainishaji rahisi wa kielelezo. Katika njia ya wastani ya kusonga, uchunguzi wa "n" uliopita una uzito sawa. Katika hali hii, unaweza kukutana na hali ambapo kila moja ya 'n' iliyopita huathiri utabiri kwa njia yake. Tofauti hii, ambayo ina uzito wa uchunguzi wa zamani tofauti, inaitwa njiauzani wa wastani wa kusonga.

Utoaji wa ruwaza

Mojawapo ya sifa muhimu zaidi zinazohitajika ili kuzingatia algoriti za utabiri wa mfululizo wa saa ni uwezo wa kueleza ruwaza nje ya kikoa cha data ya mafunzo. Algorithms nyingi za ML hazina uwezo huu kwani huwa na mipaka kwa eneo ambalo linafafanuliwa na data ya mafunzo. Kwa hivyo, hazifai kwa TS, madhumuni yake ambayo ni kutayarisha matokeo katika siku zijazo.

Sifa nyingine muhimu ya algoriti ya TS ni uwezekano wa kupata vipindi vya kujiamini. Ingawa hii ndiyo sifa chaguomsingi ya miundo ya TS, miundo mingi ya ML haina uwezo huu kwa kuwa haitegemei ugawaji wa takwimu.

Usifikiri kuwa ni mbinu rahisi tu za takwimu zinazotumiwa kutabiri TS. Sio hivyo hata kidogo. Kuna njia nyingi ngumu ambazo zinaweza kuwa muhimu sana katika kesi maalum. Generalized Autoregressive Conditional Heteroscedasticity (GARCH), Bayesian na VAR ni baadhi tu yazo.

Pia kuna miundo ya mtandao wa neva inayoweza kutumika kwa mfululizo wa saa inayotumia vitabiri vya nyuma na inaweza kushughulikia vipengele kama vile urejeleaji wa mtandao wa neva (NNAR). Kuna hata miundo ya mfululizo wa saa iliyokopwa kutoka kwa mafunzo changamano, hasa katika familia ya mtandao wa neva, kama vile mitandao ya LSTM na GRU.

Makadirio ya Vipimo na Uchunguzi wa Mabaki

Vipimo vya ubashiri vinavyojulikana zaidi nirms inamaanisha, ambayo watu wengi hutumia wakati wa kutatua shida za urekebishaji:

  • MAPE kwa sababu ni huru na inawakilisha uwiano wa makosa na thamani halisi kama asilimia;
  • MASE, ambayo inaonyesha jinsi utabiri unavyofanya vizuri ikilinganishwa na utabiri wa wastani wa kutojua.

Mbinu ya utabiri ikishabadilishwa, ni muhimu kutathmini jinsi inavyoweza kunasa miundo. Ingawa vipimo vya tathmini husaidia kubainisha jinsi thamani zilivyo karibu na thamani halisi, hazitathmini kama muundo huo unalingana na TS. Mabaki ni njia nzuri ya kutathmini hii. Kwa kuwa mtayarishaji programu anajaribu kutumia mifumo ya TS, anaweza kutarajia makosa kufanya kama "kelele nyeupe" kwa kuwa yanawakilisha kitu ambacho hakiwezi kunaswa na muundo.

"Kelele nyeupe" lazima iwe na sifa zifuatazo:

  1. Mabaki ambayo hayajaunganishwa (Acf=0)
  2. Mabaki hufuata usambazaji wa kawaida wenye wastani wa sufuri (bila upendeleo) na tofauti ya mara kwa mara.
  3. Ikiwa mojawapo ya sifa hizi mbili haipo, kuna nafasi ya kuboresha muundo.
  4. Kipengele cha wastani wa sifuri kinaweza kujaribiwa kwa urahisi kwa kutumia jaribio la T.
  5. Sifa za ukawaida na utofauti wa mara kwa mara hudhibitiwa kwa macho kwa kutumia histogramu ya mabaki au mtihani ufaao wa ukawaida usiobadilika.

ARIMA Model

ARIMA - Muundo wa Wastani wa Kusogea Uliounganishwa kwa Kiotomatiki, ni mojawapo ya mbinu maarufu zinazotumiwa katika utabiri wa TS, hasa.kupitia uunganisho otomatiki wa data ili kuunda miundo ya ubora wa juu.

Wakati wa kutathmini vigawo vya ARIMA, dhana kuu ni kwamba data haijasimama. Hii ina maana kwamba mwenendo na msimu hauwezi kuathiri tofauti. Ubora wa modeli unaweza kutathminiwa kwa kulinganisha njama ya wakati ya maadili halisi na maadili yaliyotabiriwa. Ikiwa curves zote mbili ziko karibu, basi inaweza kuzingatiwa kuwa mfano huo unafaa kesi iliyochambuliwa. Inapaswa kufichua mitindo na msimu wowote, ikiwa ipo.

Uchanganuzi wa masalio unapaswa kuonyesha kama muundo unafaa: mabaki nasibu yanamaanisha kuwa ni sahihi. Kuweka ARIMA kwa vigezo (0, 1, 1) kutatoa matokeo sawa na ulainishaji wa kielelezo, na kutumia vigezo (0, 2, 2) kutatoa matokeo ya kulainisha maradufu.

Algorithms ya Mfululizo wa Wakati katika Seva ya SQL
Algorithms ya Mfululizo wa Wakati katika Seva ya SQL

Unaweza kufikia mipangilio ya ARIMA katika Excel:

  1. Anzisha Excel.
  2. Tafuta XL MINER kwenye upau wa vidhibiti.
  3. Kwenye utepe, chagua ARIMA kutoka kwenye menyu kunjuzi.

Muhtasari wa Uwezo wa Muundo wa ARIMA:

  1. ARIMA - Wastani wa Kusonga Uliounganishwa Moja kwa Moja.
  2. Muundo wa utabiri unaotumika katika uchanganuzi wa mfululizo wa saa.
  3. Sintaksia ya kigezo cha ARIMA: ARIMA (p, d, q) ambapo p=idadi ya istilahi zinazojirudia, d=idadi ya tofauti za msimu, na q=idadi ya istilahi za wastani zinazosonga.

Algorithms katika Seva ya SQL

Kutekeleza ubashiri tofauti ni mojawapo ya mambo muhimuvipengele vya mfululizo wa muda katika utabiri wa kazi za kifedha. Iwapo misururu miwili inayohusiana itatumiwa, muundo unaotokana unaweza kutumika kutabiri matokeo ya mfululizo mmoja kulingana na tabia ya wengine.

SQL Server 2008 ina vipengele vipya vya nguvu vya kujifunza na kutumia. Zana hii ina data ya TS inayoweza kufikiwa kwa urahisi, kiolesura kilicho rahisi kutumia kwa kuiga na kuzalisha vitendaji vya algoriti, na dirisha la maelezo lenye kiungo cha hoja za DMX za upande wa seva ili uweze kuelewa kinachoendelea ndani.

Mfululizo wa saa za soko ni eneo pana ambalo miundo ya kina ya kujifunza na algoriti inaweza kutumika. Benki, madalali na fedha sasa zinajaribu uwekaji wao wa uchanganuzi na utabiri wa fahirisi, viwango vya ubadilishaji, hatima, bei za sarafu ya fiche, hisa za serikali na zaidi.

Katika utabiri wa mfululizo wa muda, mtandao wa neva hupata ruwaza zinazoweza kutabirika kwa kusoma miundo na mitindo ya masoko na kutoa ushauri kwa wafanyabiashara. Mitandao hii inaweza pia kusaidia kugundua hitilafu kama vile vilele visivyotarajiwa, kuanguka, mabadiliko ya mitindo na mabadiliko ya viwango. Miundo mingi ya kijasusi bandia hutumika kwa utabiri wa fedha.

Ilipendekeza: