Návrh dátových skladov pre analytické a reportingové nástroje

Cieľ kurzu: Kurz vás naučí správne navrhnúť a naplniť dátové sklady, ktoré slúžia ako centrálny zdroj spoľahlivých dát pre analytické a reportingové nástroje v celej spoločnosti. Kurz je navrhnutý na základe našich dlhoročných skúseností z projektov v Európe a na Blízkom Východe, z dátových skladov až do veľkosti 80 TB. Podľa svetoznámej metodológie od Ralpha Kimballa, ktorá sa používa na tie najväčšie dátové sklady na svete. Rovnako sa však používa aj na menšie dátové sklady (rádovo v stovkách GB a viac), ak chcete, aby výsledné riešenie bolo dlhodobo škálovateľné aj pri nepredvídateľných nárastoch objemu dát. Najmä sa však vyhnete bežným úskaliam pri návrhu dátových skladov, do ktorých sa dostane každý jeden tvorca bežných produkčných databáz. Ktoré by vám síce zo začiatku síce výrazne urýchlili prácu, ale neskôr by vám narobili vážne architekturálne problémy, s nutnosťou prerobenia celého riešenia od základov. Po tomto kurze budete však už vedieť, ako to spraviť hneď na prvýkrát správne. Kurz je multiplatformový, nezávislý od akejkoľvek technológie, okrem posledného bloku, ktorý je špecificky venovaný Power BI, PowerPivotu a Analysis Services.

Cieľová skupina: ETL vývojári, databázoví administrátori, analytici a tvorcovia reportov, ktorí potrebujú navrhnúť a vytvoriť dátový sklad ako podklad pre analytické a reportingové nástroje. Na kurz je vhodné mať aspoň základné skúsenosti s databázovými systémami. Ak nie ste si istí, či je tento kurz pre Vás, tak nám kedykoľvek zavolajte alebo napíšte.

Toto je najdetailnejší kurz o návrhu dátových skladov v celej SR a ČR, od autora jedinej slovenskej knihy o Power BI, PowerPivote a jazyku DAX. Je to top expert s 20-ročnými skúsenosťami v oblasti DWH a BI, na platformách Microsoft a Oracle, vrátane nasadení vo veľkých firmách. Presvedčte sa o tom v referenciách od predchádzajúcich účastníkov našich kurzov.

Trvanie: 2 dni, od 9:00 do 17:00

Najbližšie termíny:

V cene je zahrnuté: kniha Ralpha Kimballa o DWH v angličtine v hodnote 50 EUR,
občerstvenie, obed, parkovanie a dobrá atmosféra na kurze 🙂


Obsahová náplň:

Úvod do dátových skladov a dimenzionálneho modelovania

  • Úvod do riešení Business Intelligence a dátových skladov
  • Typy architektúr dátových skladov
  • Úvod do dimenzionálneho modelovania
  • Faktové tabuľky a dimenzie
  • Star schema vs. snowflake schema
  • Nevýhody normalizácie tabuliek
  • ETL nástroje vs. uložené procedúry
  • Problémy, ktoré sa riešia pri ETL procesoch
  • Full load vs. inkrementálny load
  • Čistenie dát
  • Požiadavky na dátové zdroje, hardvér a nástroje
  • 4-krokový proces dimenzionálneho návrhu

Príprava projektu a proces dimenzionálneho návrhu

  • Mapovanie a prioritizácia požiadaviek
  • Výber nástrojov
  • Identifikácia účastníkov projektu
  • Scoping a vytvorenie projektového plánu
  • Štúdia uskutočniteľnosti
  • High-level model
  • Detailný model
  • Revízia a validácia modelu
  • Dokumentácia riešenia

Návrh faktových tabuliek

  • Biznis procesy a fakty
  • Faktové tabuľky a ich štruktúra
  • Aditívne, polo-aditívne a neaditívne fakty
  • Transakčné faktové tabuľky
  • Snapshotové faktové tabuľky
  • Akumulačné snapshotové faktové tabuľky
  • Faktové tabuľky bez faktov
  • Agregačné faktové tabuľky
  • Konsolidované faktové tabuľky
  • Uloženie dlhých textov (komentáre, poznámky, a pod.)

Návrh dimenzií

  • Dimenzné tabuľky a ich štruktúra
  • Umelé kľúče, prirodzené kľúče, zdrojové kľúče, trvalé kľúče
  • Dátumové dimenzie, kalendáre, časové tabuľky
  • Denormalizované dimenzie
  • Monštrózne dimenzie
  • Hierarchie v dimenziách
  • Flagy, indikátory a ich správne ukladanie
  • Prázdne hodnoty, neznáme hodnoty, ešte nedostupné hodnoty
  • Role-playing dimenzie
  • Degenerované dimenzie
  • Junk dimenzie
  • Zdieľané dimenzie
  • Čiastočné dimenzie
  • Architektúra Enterprise DWH Bus
  • Zaznamenávanie zmien a histórie v dimenziách
  • SCD – Slowly Changing Dimensions – typy 0 až 7

Špeciálne techniky pre faktové tabuľky

  • Faktové tabuľky typu master-detail
  • Numerické hodnoty ako atribúty aj fakty
  • Fakty o trvaní udalostí
  • Alokované fakty
  • Fakty vo viacerých menách
  • M:N, many-to-many
  • Oneskorené fakty

Špeciálne techniky pre dimenzie

  • Naddimenzie
  • Mostíkové tabuľky + optimalizácia veľkosti mostíkových tabuliek
  • Viac-hodnotové prepojenie faktu na dimenziu, skupinové kľúče
  • Agregované fakty ako atribúty dimenzií
  • Dynamické pásma hodnôt
  • Podpora viacerých časových zón
  • Krokové dimenzie
  • Vymeniteľné dimenzie
  • Maskovanie a šifrovanie citlivých údajov

Špeciálne typy tabuliek

  • Sekvenčné tabuľky
  • Kombinačné tabuľky
  • Auditné tabuľky
  • Konfiguračné tabuľky
  • Chybové tabuľky

Optimalizácia miesta v databáze

  • Archivácia dát
  • Kompresia dát
  • Technológie columnstore a in-memory

Techniky pre urýchlenie ETL procesov

  • Tabuľkové partície v databázach
  • Vypnutie indexov a cudzích kľúčov
  • Defragmentácia dát
  • Paralelné spracovanie
  • Odporúčania pre zlepšenie priepustnosti ETL riešenia
  • Dlho bežiace ETL procesy
  • Monitoring ETL procesov
  • Baselining, trendy a plánovanie kapacity

Špecifiká pre Power BI, PowerPivot a Analysis Services

  • Kardinalita stĺpcov a jej redukcia
  • Redukcia pamäťovej náročnosti pre VertiPaq engine
  • Columnstore indexy
  • Materializované pohľady, indexované pohľady
  • Transformácie v Power Query vs. v dátovom sklade
  • Cloud vs. on-premise