1. DAN – Osnove statistike
S obzirom na ranije definirani cilj modula, od polaznika se ne očekuje određena razina predznanja osim osnovnog poznavanja matematičkih pojmova. Tijekom prvog dana, obradit će se slijedeće teme:
• Osnovno o statistici kao znanosti,
• Vrste podataka, načini mjerenja i zapisa,
• Organiziranje podataka za statističku analizu,
• Deskriptivne (opisne) metode i mjere varijabilnosti podataka,
• Normalnost razdiobe,
• Grafički prikaz,
• Vjerojatnost i distribucije vjerojatnosti,
• Inferencijalna statistika,
• Uzorak i uzorkovanje (sampling),
• Zavisni i nezavisni uzorci,
• Usporedba dvaju uzoraka.
VJEŽBE:
Uvod u temu predavanja predstavljat će opis statistike kao znanosti o raspršenju te kratka povijest statističkih metoda (o čemu će više riječi biti i uz svaku od metoda analize podataka predstavljenih kasnije). Razjasnit će se svrha statistike te na nekoliko primjera iz nedavne povijesti prikazati neposredna upotrebljivost statistike u svakodnevnom poslovnom procesu. Kroz primjere različitih vrsta varijabli koje se rutinski koriste u svakoj obradi podataka kao što su dob, spol, stupanje obrazovanja, ekonomski status ili primanja prikazat će se različite vrste podataka – kvalitativni i kvantitativni te različiti načini mjerenja određenih osobina ili vrijednosti reflektirani u kvalitativnim, ordinalnim i intervalnim ljestvicama. Polaznici će potom identificirati tipove varijabli u probnoj
datoteci (Excel), te postupcima sortiranja, kodiranja i filtriranja podataka na druge načine pripremiti podatke za obradu u dediciranom statističkom softverskom paketu. Po unosu (importu) podataka u statistički softver definirat će se različiti načini na koje je moguće deskriptivno (opisno) prikazati podatke. Definirat će se pojmovi poput aritmetičke sredine, medijana, moda, te općenito mjere centralne tendencije. Na primjeru spomenutih opisnih parametara objasnit će se pojam normalne razdiobe, njen značaj u statistici te općeniti načini testiranja normalnosti distribucije. S obzirom na normalnost razdiobe određenih varijabli u promatranoj datoteci (datasetu), prikazat će se različiti modeli dvodimenzionalnog prikaza vrijednosti promatranih varijabli, te njihova ispravna primjena u analizi podataka. Po usvajanju koncepta distribucije i normalne distribucije (vrijednosti), analizirat će
se koncept vjerojatnosti, p-vrijednosti u statistici, te teoretske distribucije vjerojatnosti. Objasnit će se pojam inferencijalne statistike kao bitan pristup u analizi podataka i kasnijem zaključivanju. Na primjeru nekoliko testnih datasetova iz različitih područja znanosti i prakse (ekonomija, medicina, agronomija) definirat će se pojam uzorka, slučajnog i prigodnog uzorka te drugih pristupa u izboru (sampling, uzorkovanje) podataka odnosno ispitanika. Opisat će se razlike između zavisnih i nezavisnih uzoraka, te osnove komparacije dvaju uzoraka s obzirom na tip promatrane varijable odnosno vrijednosti.
2. DAN – Temelji poslovne statistike
• Rekapitulacija i ponavljanje gradiva iz prvog dana
• Pristup u analizi kvalitativnih, semikvantitativnih i kvantitativnih podataka
• Parametrijski i neparametrijski testovi
• Omjer šansi
• Osjetljivost i specifičnost
• Usporedba više skupina
• Korelacija i regresija – osnovni koncepti
• Jednostavna linearna regresija
• Multipla regresija
• Ordinalna i logistička regresija
• Analiza preživljenja i njena primjena u ekonomiji
• Vremenske serije
• Dizajn ispitivanja
• Izračun uzorka
• Zamke u statističkoj obradi
• Programska podrška analizi i prikazu podataka
VJEŽBE:
Početkom drugog dana modula ponovit će se gradivo koje je prikazano prvi dan, s posebnim naglaskom na posljednje sadržaje koji su opisani krajem prvog dana – analizi razlika između dvije skupine podataka. Pomoću novog dataseta objasnit će se razlika između dvaju skupina ispitanika te dvaju mjerenja neke vrijednosti u istih ispitanika. Koncept analize razlika između dvije skupine ispitanika prikazat će se kroz različite testove poput t-testa, hi-kvadrat testa ili Mann Whitney-evog U testa, s obzirom na tip i/ili distribuciju podataka. Uvest će se i objasniti pojam parametrijskih i neparametrijskih metoda. Na primjerima kliničkih testova u medicini i analize vjerojatnosti prijelaza korisnika drugom dobavljaču ili drugom pružatelju usluga analizirat će se omjer šansi (odds ratio) i osjetljivost i specifičnost u analizi binarnih ishoda. U nastavku predavanja predstavit će se nešto naprednije metode analize podataka u kontekstu analize više skupina, te će se usporediti prije prikazanim metodama analize razlika među dvama skupinama ispitanika. Na primjerima iz ranije korištenih datasetova analizirat će se više skupina podataka, s odgovarajućom metodom post-hoc analize rezultata. Potom će se objasniti osnove korelacije i regresije te značenja kauzaliteta u ovim metodama. Nakon osnovnih korelacijskih metoda prikazat će se regresija kroz četiri metode – jednostavna i multipla linearna regresija, te ordinalna i logistička regresija. Polaznici će usvojiti osnovne pristupe te analizu rezultata ovih metoda kroz koeficijente (estimates), p-vrijednosti i mjere provjere modela (goodness of fit). Na primjerima iz praćenja pacijenata s kroničnim bolestima objasnit će se analiza preživljenja kroz nekoliko osnovnih metoda poput Kaplan Meierove i Coxove regresije te primjena ovih metoda u drugim djelatnostima gdje se analiziraju binarni ishodi poput preživljenja, a koji su ovisni o vremenu praćenja. U ovom kontekstu prikazat će se vremenske serije, od srednjih vrijednosti i pokretnih srednjih vrijednosti (moving average) do kompleksnijih pristupa poput analize sezonalnosti. Konačno, kao zaključak drugog dana predavanja, polaznicima će se prikazati ispravan pristup dizajnu istraživanja ili marketinškog ispitivanja, pojam i osnove izračuna uzorka, te potencijalne zamke u statističkoj obradi podataka koje polaznici mogu tumačiti u kontekstu znanja usvojenog u prethodna dva dana. Analizirat će se i različita softverska rješenja za statističku obradu podataka.