Basis statistiek
Statistiek vormt de basis voor data-analyse en machine learning. Hier staan de statistische concepten die je nodig hebt om data te begrijpen, te analyseren en betrouwbare conclusies te trekken.
Centrale maten
Gemiddelde, Mediaan en Modus
Deze drie maten beschrijven het "centrum" van een dataset, maar op verschillende manieren:
| Maat | Berekening | Wanneer gebruiken |
|---|---|---|
| Gemiddelde | Som van alle waarden / aantal waarden | Bij symmetrisch verdeelde data zonder uitschieters |
| Mediaan | Middelste waarde na sortering | Bij scheve verdelingen of data met uitschieters |
| Modus | Meest voorkomende waarde | Bij categorische data of om pieken te identificeren |
Sommatie
Sommatie (Σ) is de wiskundige notatie voor het optellen van een reeks waarden. Je komt dit symbool overal in statistiek tegen.
$$\sum_{i=1}^{n} x_i = x_1 + x_2 + ... + x_n$$
Voorbeelden in de praktijk:
- Totale omzet berekenen
- Som van kwadraten voor variantie
- Gewogen gemiddeldes
Spreiding
Standaarddeviatie
De standaarddeviatie (σ of s) meet hoe ver waarden gemiddeld afwijken van het gemiddelde. Een lage standaarddeviatie betekent dat waarden dicht bij het gemiddelde liggen; een hoge standaarddeviatie wijst op meer spreiding.
$$\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}}$$
| Standaarddeviatie | Interpretatie |
|---|---|
| Laag | Data clustert rond het gemiddelde |
| Hoog | Data is wijd verspreid |
Z-scores
Een z-score geeft aan hoeveel standaarddeviaties een waarde verwijderd is van het gemiddelde. Dit maakt het mogelijk om waarden uit verschillende datasets te vergelijken.
$$z = \frac{x - \mu}{\sigma}$$
| Z-score | Betekenis |
|---|---|
| 0 | Precies op het gemiddelde |
| +1 | Eén standaarddeviatie boven het gemiddelde |
| -2 | Twee standaarddeviaties onder het gemiddelde |
| > +3 of < -3 | Mogelijke uitschieter |
Normaalverdeling
De normaalverdeling (Gaussische verdeling) is een klokvormige, symmetrische verdeling die veel voorkomt in natuurlijke fenomenen.
Kenmerken:
- Symmetrisch rond het gemiddelde (μ)
- Vorm bepaald door standaarddeviatie (σ)
- 68% van de data ligt binnen μ ± 1σ
- 95% van de data ligt binnen μ ± 2σ
- 99.7% van de data ligt binnen μ ± 3σ
1 2 3 4 5 6 7 8 9 | |
Kansberekening
Basisprincipes
Kans wordt uitgedrukt als een getal tussen 0 (onmogelijk) en 1 (zeker).
| Notatie | Betekenis |
|---|---|
| P(A) | Kans dat gebeurtenis A optreedt |
| P(A ∩ B) | Kans dat zowel A als B optreedt (doorsnede) |
| P(A ∪ B) | Kans dat A of B (of beide) optreedt (vereniging) |
| P(A | B) | Kans op A, gegeven dat B is opgetreden (conditionele kans) |
Conditionele kans
De conditionele kans P(A|B) is de kans op A, gegeven dat B al heeft plaatsgevonden:
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$
!!! tip "Bayes' theorema" Dit is de basis voor veel AI-toepassingen:
1 | |
Steekproeven en populatie
Populatie vs. Steekproef
| Begrip | Omschrijving |
|---|---|
| Populatie | De volledige groep waarover je uitspraken wilt doen |
| Steekproef | Een subset van de populatie die je daadwerkelijk meet |
| Parameter | Kenmerk van de populatie (vaak onbekend) |
| Statistiek | Kenmerk van de steekproef (berekend uit data) |
Steekproefverdeling
De steekproefverdeling beschrijft hoe een statistiek (bijv. het steekproefgemiddelde) varieert als je herhaaldelijk steekproeven trekt uit dezelfde populatie.
Belangrijke eigenschap: volgens de Centrale Limietstelling nadert de steekproefverdeling van het gemiddelde een normaalverdeling naarmate de steekproefgrootte toeneemt, ongeacht de oorspronkelijke verdeling.
Standaardfout (Standard Error)
De standaardfout is de standaarddeviatie van de steekproefverdeling. Het geeft aan hoe nauwkeurig je steekproefstatistiek de populatieparameter schat.
$$SE = \frac{\sigma}{\sqrt{n}}$$
| Grotere steekproef | → | Kleinere standaardfout | → | Nauwkeurigere schatting |
Betrouwbaarheid en onzekerheid
Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval geeft een bereik waarbinnen de werkelijke populatieparameter waarschijnlijk ligt.
$$\text{CI} = \bar{x} \pm z \cdot SE$$
| Betrouwbaarheidsniveau | Z-waarde |
|---|---|
| 90% | 1.645 |
| 95% | 1.96 |
| 99% | 2.576 |
!!! note "Interpretatie" Een 95% betrouwbaarheidsinterval betekent: als je de steekproef 100 keer zou herhalen, zouden ongeveer 95 van de intervallen de werkelijke populatiewaarde bevatten.
Foutmarge (Error Margin)
De foutmarge is de helft van de breedte van het betrouwbaarheidsinterval:
$$\text{Foutmarge} = z \cdot SE$$
Factoren die de foutmarge beïnvloeden:
- Steekproefgrootte: groter → kleinere foutmarge
- Spreiding in data: meer spreiding → grotere foutmarge
- Betrouwbaarheidsniveau: hoger niveau → grotere foutmarge
Hypothesetoetsen
P-waarden
De p-waarde geeft de kans dat je de geobserveerde resultaten (of extremer) zou zien als de nulhypothese waar is.
| P-waarde | Interpretatie |
|---|---|
| < 0.01 | Sterk bewijs tegen nulhypothese |
| < 0.05 | Voldoende bewijs tegen nulhypothese (gebruikelijke drempel) |
| < 0.10 | Zwak bewijs tegen nulhypothese |
| ≥ 0.10 | Onvoldoende bewijs tegen nulhypothese |
!!! warning "Veelgemaakte fouten" - Een p-waarde is niet de kans dat de nulhypothese waar is - Statistisch significant ≠ praktisch relevant - P-hacking (veel toetsen uitvoeren tot je significantie vindt) leidt tot valse positieven
T-toets
De t-toets vergelijkt gemiddelden om te bepalen of er een significant verschil is.
| Variant | Toepassing |
|---|---|
| One-sample t-test | Vergelijk steekproefgemiddelde met bekende waarde |
| Independent t-test | Vergelijk gemiddelden van twee onafhankelijke groepen |
| Paired t-test | Vergelijk gemiddelden van gekoppelde metingen (voor/na) |
1 2 3 4 5 | |
ANOVA
ANOVA (Analysis of Variance) vergelijkt gemiddelden van drie of meer groepen tegelijk. Het voorkomt het probleem van meerdere t-toetsen uitvoeren (wat de kans op valse positieven verhoogt).
| Type | Toepassing |
|---|---|
| One-way ANOVA | Eén onafhankelijke variabele met 3+ groepen |
| Two-way ANOVA | Twee onafhankelijke variabelen |
1 2 3 4 | |
!!! tip "Post-hoc toetsen" Als ANOVA significant is, weet je dat er ergens een verschil is, maar niet waar. Gebruik post-hoc toetsen (bijv. Tukey HSD) om te bepalen welke groepen verschillen.
Chi-kwadraat toets (χ²)
De chi-kwadraat toets analyseert de relatie tussen categorische variabelen door geobserveerde frequenties te vergelijken met verwachte frequenties.
| Toepassing | Voorbeeld |
|---|---|
| Goodness of fit | Past de verdeling bij de verwachte verdeling? |
| Test of independence | Zijn twee categorische variabelen onafhankelijk? |
1 2 3 4 | |
Statistisch juiste conclusies trekken
Bij het interpreteren van statistische resultaten, let op het volgende:
| Valkuil | Uitleg |
|---|---|
| Correlatie vs. causaliteit | Samenhang betekent niet oorzaak-gevolg |
| Steekproefbias | Niet-representatieve steekproef vertekent conclusies |
| Multiple testing | Veel toetsen verhoogt kans op valse positieven |
| Overgeneralisatie | Conclusies gelden alleen voor de onderzochte populatie |
| Confounding variables | Derde variabelen kunnen relaties verklaren |
!!! note "Checklist voor betrouwbare conclusies" 1. Is de steekproef representatief voor de populatie? 2. Is de steekproefgrootte groot genoeg? 3. Zijn de aannames van de statistische toets vervuld? 4. Is het effect praktisch relevant, niet alleen statistisch significant? 5. Zijn alternatieve verklaringen uitgesloten?