Predikujte budoucnost časových řad

Plánovat na dlouho dopředu není snadné a často se musíme smířit s tím, že naše představy nevyjdou. V podnikání je ale důležité, aby se plány vyplnily co nejpřesněji. V článku vám představíme základní metody a pojmy, které vám k tomu pomůžou. Poslouží nám k tomu tzv. časová řada.

Ke správným podnikatelským rozhodnutím pomůže dobré plánování. Jak ale plánovat dobře? 

Důležité je vycházet z naměřených dat, respektive hodnot. Když jsou hodnoty určitého ukazatele uspořádané chronologicky –⁠ z hlediska přirozené časové postupnosti –⁠ nazýváme je časovou řadou. Příkladem může být počet zaměstnanců společnosti, výška tržeb nebo množství objednávek pro určité časové období.

Jaké oblasti můžete na základě časových řad podchytit? Konkrétní příklady, na co se predikce dají v rámci marketingu aplikovat, jsou:

  • predikce obratu na příští rok
  • plánování prodejů jednotlivých značek nebo kategorií produktů
  • zajištění včasných dodávek zboží na sklad

Co nám řekne časová řada?

Vývoj časových řad se dá analyzovat, sledovat a v neposlední řadě můžete jejich vývoj pro určitý časový interval i odhadnout. Na základě toho dokážete například určit, jaké bude v následujících dnech počasí. Pomoct ale můžou také při obchodním plánování, alokaci zdrojů nebo předpovídání cen akcií. V dnešní době koronavirové se ještě více ukazuje, jak je důležité odhad budoucího vývoje nepodceňovat.

Analýzu časové řady si můžete představit jako konstrukci vhodného modelu. Při konstrukci se snažíte odhalit zásady, na jejichž základech vznikají nové hodnoty časové řady, a zároveň pochopit mechanismy a vazby, které na vznik těchto hodnot působí. 

Cílem je tedy analyzovat chování a následně odhadnout budoucí vývoj sledované proměnné. Výsledky časové řady jsme schopni získat s různou mírou přesnosti. Proto je důležité při předpovědi uvádět také spolehlivost výsledků a hodnotit úspěšnost predikce.

Časová řada – tržby

Jak se v časové řadě vyznat

Pro charakteristiku časové řady se používají standardní statistické údaje, jako je například průměr nebo tempo růstu či poklesu. Pokud se bavíme o dekompozici –⁠ to znamená o způsobu, jakým časovou řadu modelovat –⁠ přicházejí na řadu další termíny, které je třeba zmínit.

Celou časovou řadu lze rozdělit na několik částí:

  • trendovou T
  • cyklickou C
  • sezónní S
  • náhodnou složku E

Pokud jednotlivé složky časové řady mezi sebou násobíme, jde o multiplikativní model. Pokud je sčítáme, dostaneme model aditivní. Index t značí, že se jedná o složky v čase (t1, …, tn).

yt =Tt +Ct +St +Et 

Existuje mnoho statistických technik, kterými můžeme analyzovat a předpovídat vývoj časové řady. Nejznámější metody pro identifikaci trendu a vyhlazování jsou jednoduchý klouzavý průměrexponenciální vyhlazování.

Jednou z oblíbených statistických technik, která se zaměřuje na předpověď budoucího vývoje, se nazývá ARIMA model. Zkratka znamená autoregresní (AR) integrovaný (I) klouzavý průměr (MA –⁠ moving average). Existuje mnoho modifikací ARIMA modelu –⁠ například SARIMA, který se používá, když časová řada obsahuje sezónní složku.

Pophet nám to vykreslí

Jednou z možností pro analýzu a předpověď časové řady je použití open source knihovny Pophet, která je implementovaná v Pythonu stejně jako v R. 

V podstatě se jedná o aditivní regresní model s lineárním trendem křivky nebo logistickým růstem po částech. Nebo pak s roční sezónní složkou modelovanou pomocí Fourierovy řady či meziroční složkou modelovanou za základě fiktivních proměnných (anglicky dummy variables). To jsou numerické proměnné používané v regresní analýze k reprezentaci podskupin vzorku. Znamená to, že se zaměřuje na složky, které nepatří do roční sezónní komponenty. 

Týdenní a roční složka časové řady 

Součástí Pophet knihovny je zabudovaná funkce, která umožňuje vykreslovat prognózy zadáním našich předpovědí do argumentu. Modrá čára v grafu představuje předpovídané hodnoty, zatímco černé tečky jsou původní údaje v našem datasetu.

Predikce a vývoj tržeb

 

Predikce a vývoj počtu objednávek

Co získáme

Nepřesnosti se vyjadřují pomocí historických údajů metodou cross validation. Výstupem je datový rámec obsahující hodnoty predikované a skutečné. Chybu tak můžeme vyjádřit například pomocí standardní odchylky, střední kvadratické odchylky nebo střední absolutní procentuální chyby.

Pophet knihovna nám nabízí rychlou implementaci s okamžitými výsledky, dokáže si dobře poradit s odlehlými hodnotami (outliers) a chybějícími daty. Zároveň nám poskytuje dobrý přehled dílčích výsledků.

Závěrem

Predikce a analýza časových řad je tématem, které se v poslední době dostává do popředí, a které bude velmi důležité z hlediska plánování budoucího vývoje trhu. Z našeho pohledu je dnes ideálním řešením kombinace různých scénářů a metod, které nám tato disciplína nabízí. Díky tomu se můžeme co nejlépe přiblížit realitě. 


Zuzana Maruniakova

Jako jedna z členů analytického týmu PROFICIA se starám o běžnou, ale i pokročilou analýzu dat našich klientů. Mým cílem je zařadit aktuální poznatky z datové vědy do našich řešení.