Skip to content

Research skills

Onderzoeksvaardigheden zijn onmisbaar voor elke AI Engineer. Of je nu een nieuw algoritme wilt begrijpen, een technische keuze moet onderbouwen of een experiment opzet — je moet in staat zijn om betrouwbare informatie te vinden, te evalueren en toe te passen.


Probleemdefinitie

Elk onderzoek begint met een helder geformuleerd probleem. Een goede probleemdefinitie voorkomt dat je tijd verspilt aan irrelevante zaken en helpt je gericht te zoeken.

Kenmerken van een goede probleemdefinitie

Kenmerk Uitleg Voorbeeld
Specifiek Niet te breed, duidelijk afgebakend ~~"AI verbeteren"~~ → "Nauwkeurigheid van sentimentanalyse verhogen op Nederlandse tweets"
Meetbaar Je kunt bepalen wanneer het opgelost is "Accuracy van 85% naar 92% brengen"
Relevant Het probleem is de moeite waard om op te lossen Gekoppeld aan een business- of gebruikersbehoefte
Haalbaar Oplossing is mogelijk binnen tijd en middelen Rekening houden met beschikbare data en compute

Van vaag naar concreet

  1. Identificeer het symptoom: Wat gaat er mis of kan beter?
  2. Analyseer de context: Waar doet het probleem zich voor? Voor wie?
  3. Stel de onderzoeksvraag: Wat moet je weten om het op te lossen?
  4. Definieer succescriteria: Hoe weet je dat je klaar bent?

!!! tip "5x Waarom" Vraag vijf keer "waarom?" om van een oppervlakkig symptoom naar de kern van het probleem te komen.


Juiste bronnen vinden

Niet alle informatie is gelijkwaardig. Als AI Engineer moet je onderscheid kunnen maken tussen betrouwbare en onbetrouwbare bronnen.

Bronhiërarchie

Bron Betrouwbaarheid Wanneer gebruiken
Peer-reviewed papers Hoog Wetenschappelijke onderbouwing, state-of-the-art methoden
Conference proceedings (NeurIPS, ICML, ACL) Hoog Recente AI-ontwikkelingen
Preprints (arXiv) Middel-Hoog Allernieuwste onderzoek (nog niet peer-reviewed)
Technische documentatie Hoog Implementatiedetails van frameworks/libraries
Gerenommeerde blogs (Google AI, OpenAI) Middel Toegankelijke uitleg van concepten
Stack Overflow / Forums Laag-Middel Praktische implementatieproblemen
Willekeurige blogposts Laag Alleen als startpunt, altijd verifiëren
ChatGPT / LLMs Variabel Brainstormen, uitleg krijgen — altijd verifiëren!

Waar zoeken?

Platform Type content
Google Scholar Academische papers en citaties
arXiv Preprints (vooral cs.LG, cs.AI, stat.ML)
Semantic Scholar Papers met AI-gegenereerde samenvattingen
Papers With Code Papers met bijbehorende implementaties
Connected Papers Visuele weergave van gerelateerde papers

Zoekstrategieën

  • Backward searching: Bekijk de referenties van een relevante paper
  • Forward searching: Zoek papers die een belangrijke paper citeren
  • Keyword verfijning: Begin breed, verfijn op basis van resultaten
  • Snowballing: Combineer backward en forward searching

Papers lezen

Wetenschappelijke papers kunnen overweldigend zijn. Een gestructureerde aanpak helpt om efficiënt de relevante informatie eruit te halen.

De drie-pass methode

Pass Doel Tijd Focus
1e pass Beoordelen of de paper relevant is 5-10 min Titel, abstract, intro, conclusie, figuren
2e pass Hoofdlijnen begrijpen 30-60 min Methode, resultaten, belangrijkste claims
3e pass Diep begrip 1-4 uur Alles, inclusief wiskunde en experimenten

Structuur van een ML-paper

Sectie Wat je eruit haalt
Abstract Samenvatting: probleem, aanpak, resultaten
Introduction Waarom is dit belangrijk? Wat is de bijdrage?
Related Work Context en onderscheid met eerder werk
Method Hoe werkt de voorgestelde oplossing?
Experiments Hoe is het getest? Op welke data?
Results Wat zijn de prestaties? Vergelijking met baselines
Discussion/Conclusion Beperkingen, implicaties, toekomstig werk

Kritische vragen bij het lezen

  • Wat is het probleem dat de auteurs proberen op te lossen?
  • Wat is de kern van hun oplossing?
  • Hoe evalueren ze hun aanpak? Is dat eerlijk?
  • Wat zijn de beperkingen die ze (niet) noemen?
  • Kan ik dit reproduceren met de gegeven informatie?

!!! warning "Let op" Niet elke gepubliceerde paper is correct of relevant. Kijk kritisch naar experimentele opzet, datasets en of claims ondersteund worden door de resultaten.


Validiteit

Validiteit gaat over de vraag of je onderzoek daadwerkelijk meet wat je wilt meten, en of je conclusies gerechtvaardigd zijn.

Typen validiteit

Type Vraag Voorbeeld van schending
Interne validiteit Is er een causaal verband tussen interventie en resultaat? Andere factoren (confounders) verklaren het resultaat
Externe validiteit Zijn resultaten generaliseerbaar naar andere contexten? Model getraind op één dataset werkt niet op andere data
Construct validiteit Meet je wat je denkt te meten? Accuracy meten terwijl je eigenlijk fairness wilt beoordelen
Statistische validiteit Zijn de statistische conclusies correct? Te kleine steekproef, verkeerde toets toegepast

Bedreigingen voor validiteit in ML-onderzoek

Bedreiging Uitleg
Data leakage Trainingsdata bevat informatie uit de testset
Overfitting Model presteert goed op test, maar generaliseert niet
Cherry-picking Alleen de beste resultaten rapporteren
P-hacking Veel experimenten draaien tot significantie verschijnt
Verkeerde baseline Vergelijken met zwakke of verouderde methoden
Dataset bias Data is niet representatief voor de doelgroep

Juiste conclusies trekken

Het trekken van conclusies is waar onderzoek waarde krijgt — maar ook waar het vaak misgaat.

Van resultaten naar conclusies

Stap Actie
1. Resultaten samenvatten Wat tonen de data objectief?
2. Interpretatie Wat betekenen deze resultaten in context?
3. Vergelijken met hypothese Bevestigen of weerleggen de resultaten je verwachting?
4. Beperkingen erkennen Welke factoren kunnen de resultaten beïnvloeden?
5. Conclusie formuleren Welke claim kun je onderbouwen?

Veelvoorkomende fouten

Fout Beschrijving
Overclaiming Sterkere conclusies trekken dan de data ondersteunen
Correlatie als causaliteit Samenhang interpreteren als oorzaak-gevolg
Negeren van negatieve resultaten Alleen focussen op wat werkt
Generaliseringsfouten Conclusies uitbreiden naar contexten die niet onderzocht zijn
Confirmation bias Alleen bewijs zien dat je hypothese bevestigt

Checklist voor robuuste conclusies

  • [ ] Worden alle resultaten gerapporteerd, ook de negatieve?
  • [ ] Zijn alternatieve verklaringen overwogen?
  • [ ] Zijn de beperkingen van het onderzoek benoemd?
  • [ ] Zijn de conclusies proportioneel aan het bewijs?
  • [ ] Zou iemand anders dezelfde conclusies trekken uit deze data?

!!! note "Wetenschappelijke integriteit" Eerlijk rapporteren — ook als resultaten tegenvallen — is een kernwaarde van goed onderzoek. Het verbergen van negatieve resultaten schaadt niet alleen je eigen geloofwaardigheid, maar ook het hele vakgebied.