Data science je pojam koji se značajno počinje upotrebljavati unazad nekoliko godina. Područje rada data scientist-a je veoma široko te se proteže od znanosti, osiguravajućih kuća, banaka, telekoma pa sve do sporta i politike.
Program uvod u data science osmišljen je kako bi upoznao polaznike s najvažnijim znanjima potrebnim za rad sa podacima u ulozi data scientist-a. Ova uloga (radno mjesto) zahtijeva ljude koji poznaju statističke modele i znaju kako ih upotrijebiti u poslovnom okruženju i adekvatno potrebama, također osposobljeni su za rad sa velikim skupovima podataka. Osim toga tipično je dobro poznavanje SQL-a kao i poznavanje barem jednog programskog jezika za prediktivnu analitiku (na primjer R ili Python). Analizirane podatke potrebno je također adekvatno i predstaviti što podrazumijeva alate za vizualnu reprezentaciju podataka i izvještavanje.
Program se sastoji od četiri glavne cjeline:
- Priprema podataka za analizu – Uvod u rad s bazama podataka (2 dana)
- Osnove statistike za ne matematičare (2 dana)
- Poslovna statistička analiza korištenjem programa „R“ (2 dana)
- Prikaz rezultata analize i vizualizacija podataka (2 dana)
Prva cjelina ima za cilj osposobiti polaznike za dohvat i pripremu podataka za analizu korištenjem SQL jezika i pruža osnovna znanja o manipulaciji podacima u bazama podataka.
Druga cjelina predstavlja osnove i temelj za razumijevanje statističke analize podataka i namijenjena je osobama koje matematiku i statistiku poznaju samo na osnovnoj razini. Ovaj modul namijenjen je da budući data scientisti razumije počela na kojima su temeljeni alati za obradu podataka i prediktivnu analitiku.
Treća cjelina daje pregled programskog jezika R. Od učitavanja podataka i obradom (manipulacijama), preko analize (data mining), pa sve do prediktivne analitike, korak po korak dolazimo do potpune slike (razumijevanja) o podacima. Znanjem pokrivenim ovim modulom, polaznici će biti spremni analizirati podataka korištenjem R-a, primjenu prediktivnih modela te interpretaciju rezultata izračuna.
Na posljetku zadnja, četvrta cjelina, bavi se prikazom podataka, bilo grafički, bilo u okviru standardnog izvještavanja s akcentom na pretvaranje rezultata u vizualno dojmljivu priču kao zadnji korak analize.
Ciljevi
Cilj ovog programa je osposobiti polaznike za ulogu data scientist-a, osobe koja se fokusira na pitanje kako razumijevanje podataka može utjecati na tvrtku i kako takvo znanje pretvoriti u profit.
Metode rada i programski alati korišteni za rad
Polaznici će navedene sadržaje i vještine usvojiti kroz teorijsko predavanje i niz praktičnih vježbi na računalima. U svakom od modula koriste se prikladni alati za samostalne vježbe polaznika.
Prva cjelina temeljena je na radu sa Oracle bazom podataka.
Druga cjelina temeljena je na vježbama sa programskim alatom SPSS Statistics.
U trećoj cjelini se za izvođenje vježbi koristi programski alat „R“.
U četvrtoj cjelini, za vizualne analize i prezentacije korišten će biti Tableau i Power Pivot.