Een kijkje achter de schermen: van big data naar begrijpelijke en toepasbare arbeidsmarktinformatie

Jobdigger wordt over het algemeen geassocieerd met big data, kunstmatige intelligentie, machine learning en spidering. Dit klopt ook, Jobdigger verzamelt big data, namelijk alle online gepubliceerde vacatures op het Nederlandse web en zet deze om naar begrijpelijke en toepasbare arbeidsmarktinformatie.

Onze klanten zien en gebruiken alleen het resultaat van een compleet en nauwkeurig proces. Maar wat zit er nou eigenlijk achter al die waardevolle data? Hoe wordt deze gevonden, bewerkt en uiteindelijk in de vorm van vacatures, markt- en bedrijfsanalyses in het dashboard gepresenteerd? Erik en Robbert Leerkes, software specialisten en eigenaren van Jobdigger namen me mee in de wereld van machine learning. 

De online gepubliceerde vacatures worden verzameld door de Jobdigger spider. Deze focust zich niet alleen op bronnen zoals jobboards, vacaturesites van bemiddelaars en werken-bij-websites van grote bedrijven. De spider verzamelt juist ook de vacatures die gepubliceerd worden op websites van middelgrote en kleinere bedrijven. Om dit, gezien de enorme omvang van het web, technisch mogelijk te maken, focust de spider zich specifiek op vacaturepagina’s. De vacatures staan voornamelijk op webpagina’s, maar kunnen ook in een Word- of PDF-bestand zijn opgenomen. 

‘De Jobdigger spider werkt volledig automatisch en zelfstandig. Indien nodig, bijvoorbeeld om specifieke jobboards efficiënt te kunnen verwerken, worden deze handmatig geconfigureerd’, vertelt Robbert.

In totaal worden er ruim 1 miljoen bronnen bezocht en er worden dagelijks 13.000 nieuwe unieke vacatures gevonden. Het gedrag van de Jobdigger spider is afhankelijk van de bron die wordt bezocht. Zo worden actieve bronnen waar herhaaldelijk nieuwe vacatures worden gevonden ook vaker bezocht. Ook worden alle actieve vacaturepagina’s regelmatig door de spider bekeken om zo de actualiteit van deze vacatures te controleren.

Robbert legt uit dat de Jobdigger spider een zogenaamde “focused crawler” is. ‘Op basis van tekst matching en classificatie wordt de beste route door een website dynamisch bepaald. Hierbij is het doel: de kans op het aantreffen van een vacature te maximaliseren.’

En wanneer de spider een vacature heeft gevonden, wat gebeurt er dan?

‘Wanneer de spider een vermoedelijke vacature aantreft, wordt deze direct op basis van een “machine learning model” geclassificeerd’, legt Erik uit. ‘In een later stadium, nadat het gevonden document verder is geanalyseerd op relevante aspecten, wordt dit nogmaals gedaan. Vervolgens wordt bekeken in hoeverre het een unieke vacature betreft, of dat het een dubbele is van een al eerder gevonden vacature.’

Nadat elke vacature is ontdubbeld, classificeert Jobdigger ze door deze in te delen in een beroepsklasse. Er wordt gebruik gemaakt van de internationale ISCO-standaard. Deze indeling is sinds kort door Jobdigger aangevuld met een meer gedetailleerde indeling die specifiek gericht is op de Nederlandse arbeidsmarkt: de JDCO-classificatie. ‘Om dit mogelijk te maken zijn door Jobdigger diverse modellen getraind op basis van state-of-the-art machine learning technologieën’, voegt Erik eraan toe.

Daarna wordt de vacature verrijkt door deze te koppelen met informatie uit externe bronnen. Zo worden de vacatures aangevuld met gegevens uit bijvoorbeeld de KVK, het UWV, DUO en het CBS.

Ten slotte worden deze ontdubbelde en verrijkte vacatures in het Jobdigger dashboard weergegeven en vormen zodoende de basis voor veelvuldige markt- en bedrijfsanalyses die de gebruiker zelf kan genereren. 

Ben je benieuwd naar wat wij voor jouw organisatie kunnen betekenen?

Wil je Jobdigger zien?

Vraag dan nu vrijblijvend een online demo aan

Online demo aanvragen

Wil je op de hoogte blijven van al ons nieuws?
Meld je dan aan voor onze nieuwsbrief!