Skip to content

Basis statistiek

Statistiek vormt de basis voor data-analyse en machine learning. Hier staan de statistische concepten die je nodig hebt om data te begrijpen, te analyseren en betrouwbare conclusies te trekken.


Centrale maten

Gemiddelde, Mediaan en Modus

Deze drie maten beschrijven het "centrum" van een dataset, maar op verschillende manieren:

Maat Berekening Wanneer gebruiken
Gemiddelde Som van alle waarden / aantal waarden Bij symmetrisch verdeelde data zonder uitschieters
Mediaan Middelste waarde na sortering Bij scheve verdelingen of data met uitschieters
Modus Meest voorkomende waarde Bij categorische data of om pieken te identificeren

Sommatie

Sommatie (Σ) is de wiskundige notatie voor het optellen van een reeks waarden. Je komt dit symbool overal in statistiek tegen.

$$\sum_{i=1}^{n} x_i = x_1 + x_2 + ... + x_n$$

Voorbeelden in de praktijk:

  • Totale omzet berekenen
  • Som van kwadraten voor variantie
  • Gewogen gemiddeldes

Spreiding

Standaarddeviatie

De standaarddeviatie (σ of s) meet hoe ver waarden gemiddeld afwijken van het gemiddelde. Een lage standaarddeviatie betekent dat waarden dicht bij het gemiddelde liggen; een hoge standaarddeviatie wijst op meer spreiding.

$$\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}}$$

Standaarddeviatie Interpretatie
Laag Data clustert rond het gemiddelde
Hoog Data is wijd verspreid

Z-scores

Een z-score geeft aan hoeveel standaarddeviaties een waarde verwijderd is van het gemiddelde. Dit maakt het mogelijk om waarden uit verschillende datasets te vergelijken.

$$z = \frac{x - \mu}{\sigma}$$

Z-score Betekenis
0 Precies op het gemiddelde
+1 Eén standaarddeviatie boven het gemiddelde
-2 Twee standaarddeviaties onder het gemiddelde
> +3 of < -3 Mogelijke uitschieter

Normaalverdeling

De normaalverdeling (Gaussische verdeling) is een klokvormige, symmetrische verdeling die veel voorkomt in natuurlijke fenomenen.

Kenmerken:

  • Symmetrisch rond het gemiddelde (μ)
  • Vorm bepaald door standaarddeviatie (σ)
  • 68% van de data ligt binnen μ ± 1σ
  • 95% van de data ligt binnen μ ± 2σ
  • 99.7% van de data ligt binnen μ ± 3σ
1
2
3
4
5
6
7
8
9
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

x = np.linspace(-4, 4, 100)
y = stats.norm.pdf(x, 0, 1)  # μ=0, σ=1 (standaardnormaal)
plt.plot(x, y)
plt.title("Standaard normaalverdeling")
plt.show()

Kansberekening

Basisprincipes

Kans wordt uitgedrukt als een getal tussen 0 (onmogelijk) en 1 (zeker).

Notatie Betekenis
P(A) Kans dat gebeurtenis A optreedt
P(A ∩ B) Kans dat zowel A als B optreedt (doorsnede)
P(A ∪ B) Kans dat A of B (of beide) optreedt (vereniging)
P(A | B) Kans op A, gegeven dat B is opgetreden (conditionele kans)

Conditionele kans

De conditionele kans P(A|B) is de kans op A, gegeven dat B al heeft plaatsgevonden:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

!!! tip "Bayes' theorema" Dit is de basis voor veel AI-toepassingen:

1
$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

Steekproeven en populatie

Populatie vs. Steekproef

Begrip Omschrijving
Populatie De volledige groep waarover je uitspraken wilt doen
Steekproef Een subset van de populatie die je daadwerkelijk meet
Parameter Kenmerk van de populatie (vaak onbekend)
Statistiek Kenmerk van de steekproef (berekend uit data)

Steekproefverdeling

De steekproefverdeling beschrijft hoe een statistiek (bijv. het steekproefgemiddelde) varieert als je herhaaldelijk steekproeven trekt uit dezelfde populatie.

Belangrijke eigenschap: volgens de Centrale Limietstelling nadert de steekproefverdeling van het gemiddelde een normaalverdeling naarmate de steekproefgrootte toeneemt, ongeacht de oorspronkelijke verdeling.

Standaardfout (Standard Error)

De standaardfout is de standaarddeviatie van de steekproefverdeling. Het geeft aan hoe nauwkeurig je steekproefstatistiek de populatieparameter schat.

$$SE = \frac{\sigma}{\sqrt{n}}$$

| Grotere steekproef | → | Kleinere standaardfout | → | Nauwkeurigere schatting |


Betrouwbaarheid en onzekerheid

Betrouwbaarheidsintervallen

Een betrouwbaarheidsinterval geeft een bereik waarbinnen de werkelijke populatieparameter waarschijnlijk ligt.

$$\text{CI} = \bar{x} \pm z \cdot SE$$

Betrouwbaarheidsniveau Z-waarde
90% 1.645
95% 1.96
99% 2.576

!!! note "Interpretatie" Een 95% betrouwbaarheidsinterval betekent: als je de steekproef 100 keer zou herhalen, zouden ongeveer 95 van de intervallen de werkelijke populatiewaarde bevatten.

Foutmarge (Error Margin)

De foutmarge is de helft van de breedte van het betrouwbaarheidsinterval:

$$\text{Foutmarge} = z \cdot SE$$

Factoren die de foutmarge beïnvloeden:

  • Steekproefgrootte: groter → kleinere foutmarge
  • Spreiding in data: meer spreiding → grotere foutmarge
  • Betrouwbaarheidsniveau: hoger niveau → grotere foutmarge

Hypothesetoetsen

P-waarden

De p-waarde geeft de kans dat je de geobserveerde resultaten (of extremer) zou zien als de nulhypothese waar is.

P-waarde Interpretatie
< 0.01 Sterk bewijs tegen nulhypothese
< 0.05 Voldoende bewijs tegen nulhypothese (gebruikelijke drempel)
< 0.10 Zwak bewijs tegen nulhypothese
≥ 0.10 Onvoldoende bewijs tegen nulhypothese

!!! warning "Veelgemaakte fouten" - Een p-waarde is niet de kans dat de nulhypothese waar is - Statistisch significant ≠ praktisch relevant - P-hacking (veel toetsen uitvoeren tot je significantie vindt) leidt tot valse positieven

T-toets

De t-toets vergelijkt gemiddelden om te bepalen of er een significant verschil is.

Variant Toepassing
One-sample t-test Vergelijk steekproefgemiddelde met bekende waarde
Independent t-test Vergelijk gemiddelden van twee onafhankelijke groepen
Paired t-test Vergelijk gemiddelden van gekoppelde metingen (voor/na)
1
2
3
4
5
from scipy import stats

# Independent t-test
t_stat, p_value = stats.ttest_ind(groep_a, groep_b)
print(f"t-statistiek: {t_stat}, p-waarde: {p_value}")

ANOVA

ANOVA (Analysis of Variance) vergelijkt gemiddelden van drie of meer groepen tegelijk. Het voorkomt het probleem van meerdere t-toetsen uitvoeren (wat de kans op valse positieven verhoogt).

Type Toepassing
One-way ANOVA Eén onafhankelijke variabele met 3+ groepen
Two-way ANOVA Twee onafhankelijke variabelen
1
2
3
4
from scipy import stats

# One-way ANOVA
f_stat, p_value = stats.f_oneway(groep_a, groep_b, groep_c)

!!! tip "Post-hoc toetsen" Als ANOVA significant is, weet je dat er ergens een verschil is, maar niet waar. Gebruik post-hoc toetsen (bijv. Tukey HSD) om te bepalen welke groepen verschillen.

Chi-kwadraat toets (χ²)

De chi-kwadraat toets analyseert de relatie tussen categorische variabelen door geobserveerde frequenties te vergelijken met verwachte frequenties.

Toepassing Voorbeeld
Goodness of fit Past de verdeling bij de verwachte verdeling?
Test of independence Zijn twee categorische variabelen onafhankelijk?
1
2
3
4
from scipy import stats

# Chi-kwadraat test voor onafhankelijkheid
chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)

Statistisch juiste conclusies trekken

Bij het interpreteren van statistische resultaten, let op het volgende:

Valkuil Uitleg
Correlatie vs. causaliteit Samenhang betekent niet oorzaak-gevolg
Steekproefbias Niet-representatieve steekproef vertekent conclusies
Multiple testing Veel toetsen verhoogt kans op valse positieven
Overgeneralisatie Conclusies gelden alleen voor de onderzochte populatie
Confounding variables Derde variabelen kunnen relaties verklaren

!!! note "Checklist voor betrouwbare conclusies" 1. Is de steekproef representatief voor de populatie? 2. Is de steekproefgrootte groot genoeg? 3. Zijn de aannames van de statistische toets vervuld? 4. Is het effect praktisch relevant, niet alleen statistisch significant? 5. Zijn alternatieve verklaringen uitgesloten?