Van stapels documenten naar snelle AI-inzichten

Stel je voor dat je geen team van onderzoekers nodig hebt om honderden documenten door te spitten, maar dit in je eentje kunt doen met behulp van AI. Hoe zou dat je manier van werken veranderen? Dat was de centrale vraag tijdens de tweedaagse workshop AI for Environmental Data-Driven Investigations in Wenen, georganiseerd door de Urban Journalism Network. Samen met een internationaal collectief van journalisten, ontwerpers en onderzoekers doken we in de wereld van Retrieval-Augmented Generation (RAG), een technologie die AI combineert met documentanalyse.
Wat is een RAG-systeem?
RAG (Retrieval-Augmented Generation) onderscheidt zich van een “doorsnee” AI-systeem zoals ChatGPT doordat het niet alleen antwoorden genereert op basis van een voorgetraind model, maar actief zoekt in externe documenten en databases voordat het een antwoord formuleert. Dit betekent dat een RAG-systeem niet zomaar informatie uitspuugt, maar daadwerkelijk zoekt in een afgebakende set documenten en daar diens antwoorden op baseert. Hierdoor krijg je minder ‘hallucinaties’ en meer feitelijke, op bewijs gebaseerde inzichten. Bijvoorbeeld, als je onderzoek doet naar Europese klimaatwetgeving, kan een standaard AI zoals ChatGPT algemene informatie genereren op basis van zijn voorgetrainde kennis. Een RAG-systeem daarentegen kan actief zoeken in relevante beleidsdocumenten, lobbyverslagen en juridische teksten om een antwoord te formuleren dat direct gebaseerd is op de meest actuele en specifieke bronnen.
Wat meteen duidelijk werd in de workshop: een RAG-systeem is zo goed als de data die je erin stopt. Voordat je begint met vragen stellen, moet je eerst zorgen dat je dataset relevant, gestructureerd en klaar voor gebruik is. Een enorme tijdsbesparing, maar ook een extra stap die je als onderzoeker bewust moet zetten.
Een AI-ondersteunde zoektocht naar duurzaamheid en huisvesting
Tijdens de workshop richtten we ons op thema’s rondom huisvesting, lobbying, geldstromen en duurzaamheid op Europese schaal. Hoe worden subsidies voor groene renovaties verdeeld? Welke belangen spelen er achter duurzaamheidswetgeving? En wie profiteert er uiteindelijk van klimaatbeleid in de gebouwde omgeving?
We onderzochten onder andere hoe de Energy Performance of Buildings Directive (EPBD) beïnvloed wordt door belangengroepen. Uit onze analyse bleek dat er een sterke lobby is vanuit de gas- en olie-industrie tegen de vervanging van fossiele verwarmingssystemen in woningen. Daarnaast uitten verschillende organisaties, zoals de Council of European Municipalities and Regions (CEMR) en de Europese vastgoedsector, zorgen over de haalbaarheid en sociale impact van verplichte renovaties. Hierbij werd onder andere gewezen op mogelijke huurverhogingen als gevolg van de renovatiekosten, beperkte toegang tot financiering voor bepaalde vastgoedeigenaren en de impact op kwetsbare huurders die geconfronteerd kunnen worden met hogere woonlasten of gedwongen verhuizingen. Sommigen pleitten voor vrijwillige richtlijnen en financiële stimulansen in plaats van strikte verplichtingen. Ook landbezitters en bouwbedrijven speelden een actieve rol in het debat, waarbij ze technologische neutraliteit benadrukten en opriepen tot meer flexibiliteit in de regelgeving. Verder zagen we dat de impact van Minimum Energy Performance Standards (MEPS) op huurprijzen en eigendomsrechten een terugkerend argument was in de weerstand tegen deze maatregelen.
AI-tools in actie
Met deelnemers uit verschillende landen werkten we in kleine groepen aan deze vraagstukken, waarbij we AI-tools zoals NotebookLM (van Google), ChatGPT assistants (van OpenAI) en het open-source RAG-programma Koteamon testten, ontwikkeld en gebruikt door onder andere iTrømso. Dit programma kan lokaal op een laptop worden geïnstalleerd, waardoor een heikel punt in AI en big data wordt aangepakt: het feit dat vaak alle data en documenten die je gebruikt in interacties met AI’s of LLM’s worden opgeslagen op plekken waar je geen zeggenschap hebt over wat ermee gebeurt. Een lokale AI-agent biedt hier een oplossing voor.
Naast het analyseren van beleidsstukken, lobbyrapporten en financiële datasets, experimenteerden we ook met tools om datasets te zoeken, verwerken, visualiseren en inhoudelijk te beoordelen. Een belangrijke ontdekking was dat we met AI niet alleen efficiënter informatie konden doorzoeken, maar ook tijdlijnen van ontwikkelingen binnen beleidsstukken en thema’s konden genereren. Zo konden we bijvoorbeeld de evolutie van de Energy Performance of Buildings Directive (EPBD) in kaart brengen, van de eerste richtlijnen in 2010 tot de recente herzieningen en de impact van lobbygroepen. Dit gaf ons een beter overzicht van hoe regelgeving zich door de jaren heen heeft gevormd en welke belangen hierin een rol speelden. Door AI in te zetten konden we in slechts één dag een geïnformeerd startpunt bereiken, iets wat ons zonder AI aanzienlijk meer tijd, mensen en energie had gekost.
Leren en onderzoeken tegelijk
Het was een intensieve duik in zowel AI-technologie als inhoudelijk onderzoek – alsof we in een snelkookpan zaten waarin alles tegelijkertijd gebeurde. De uitkomsten? Geen kant-en-klare conclusies, maar een experimentele casus die de basis legt voor verdere verdieping. En dat alleen al is ontzettend waardevol.
AI is een krachtig hulpmiddel, maar het blijft een assistent, geen vervanger van kritisch denkwerk. Het doorspitten van grote hoeveelheden tekst wordt er een stuk sneller en efficiënter door, maar de interpretatie blijft mensenwerk. Wat AI doet, is patronen en verbanden blootleggen die je anders misschien had gemist.
Een belangrijke les uit de workshop: AI is zo goed als de input. Documenten vooraf filteren, structureren en opschonen bepaalt grotendeels hoe bruikbaar de uitkomsten zijn. Daarnaast is het handig om van tevoren na te denken over je vragen, zodat je het systeem gericht kunt inzetten.
Benieuwd hoe AI jouw onderzoek kan versnellen? Welke vragen zou jij een RAG-systeem willen stellen?

Floor van der Wal
f.vanderwal@fontys.nl