Data-engineering klaar voor AI-verandering
Julian Thomas, hoofdadviseur bij PBT Group
Kunstmatige intelligentie (AI) zal de beroepen gegevensarchitectuur en engineering fundamenteel veranderen. Volgens onderzoek zou de wereldwijde adoptie van AI door bedrijven in 2022 35% bedragen, een stijging ten opzichte van de 31% van het jaar daarvoor en er zijn geen tekenen dat dit snel zal afnemen.
De integratie van AI in de bedrijfsvoering biedt aanzienlijke mogelijkheden voor disruptie, maar de effectiviteit staat of valt met vertrouwen. Traditioneel hebben bedrijven modellen voor machinaal leren gebouwd met behulp van veilige, interne gegevens uit hun systemen of verkregen via gerenommeerde dataleveranciers zoals kredietbureaus. Deze gevestigde praktijk garandeert zowel de veiligheid als de betrouwbaarheid van de gegevens.
Sourcing via internet
Het landschap is echter aan het verschuiven met moderne AI-toepassingen, waarbij er een groeiende afhankelijkheid is van gegevens afkomstig van het internet. Deze trend doet twijfels rijzen over de nauwkeurigheid en geldigheid van de gegevens en benadrukt het adagium ‘garbage in, garbage out’. Nu bedrijven steeds meer moeten vertrouwen op AI-modellen die interne kerngegevens gebruiken voor training, komen de governance en beveiliging van deze gegevens steeds meer onder de aandacht. Het is daarom van cruciaal belang voor bedrijven om zorgvuldig te navigeren door deze verschillende data sourcing scenario’s en te zorgen voor robuuste data management praktijken om het vertrouwen in AI-gestuurde activiteiten te behouden.
Hoewel AI- en deep learning-modellen ontworpen zijn om in de loop van de tijd te verbeteren, garandeert dit niet noodzakelijkerwijs de nauwkeurigheid of relevantie van de output wanneer er wordt vertrouwd op vrijelijk verkregen internetgegevens. Deze modellen verfijnen hun algoritmen op basis van patronen en feedback, waardoor ze geleidelijk evolueren en hun prestaties verbeteren.
Het is belangrijk om te erkennen dat AI niet inherent onderscheid maakt tussen ‘goede’ en ‘slechte’ gegevens. De criteria die AI gebruikt om gegevens te evalueren blijven grotendeels ondoorzichtig en zijn niet duidelijk controleerbaar. Dit vormt een uitdaging bij het waarborgen van de relevantie en juistheid van de informatie. Als je bijvoorbeeld instructies vraagt voor het bouwen van een tafel met zes zitplaatsen die bedoeld is voor volwassenen, kan het model nauwkeurige instructies geven, maar dan voor een versie op kinderformaat. Dit toont aan dat de informatie weliswaar correct is, maar niet altijd relevant voor de specifieke behoeften van de gebruiker. Daarom is het, nu AI zich blijft ontwikkelen, van cruciaal belang om de basis waarop het gegevens verwerkt en verbetert in twijfel te trekken en kritisch te onderzoeken.
Een uitdaging bij het gebruik van gegevens van het internet voor AI-toepassingen is de voorziening en het eigendom van die informatie. Hoewel gegevens op het internet doorgaans niet worden beschermd door strenge wettelijke vereisten, brengt het omgekeerde scenario een groter risico met zich mee. Bedrijven moeten waakzaam zijn bij het leveren van hun beschermde gegevens aan AI-diensten in de cloud. Zorgen zijn er onder andere over hoe de gegevens beveiligd zijn, of ze gebruikt worden om andere modellen te trainen waar derden van zouden kunnen profiteren en over de algehele privacy van gegevens.
Aan de andere kant worden AI-platforms zelf geconfronteerd met potentiële juridische risico’s, zoals schending van auteursrecht, wanneer ze extern aangeleverde gegevens gebruiken voor het bouwen van modellen. Dit kan gebeuren als de gegevens, of ze nu afkomstig zijn van diensten of rechtstreeks van het internet, zonder de juiste toestemming worden gebruikt op manieren die onbedoeld andere belanghebbenden ten goede komen. Daarom moeten bedrijven rekening houden met zowel de beveiliging van hun gegevens als de compliance verplichtingen die hierop van toepassing zijn wanneer ze met AI-technologieën aan de slag gaan.
Strategische afstemming
AI is, voorlopig althans, geen technologie die aan haar lot kan of moet worden overgelaten. In plaats daarvan is het een hulpmiddel dat data-architecten en -engineers kan helpen hun werk effectiever te doen. Bedrijven kunnen de technologie bijvoorbeeld gebruiken om repetitieve en tijdrovende processen te automatiseren die weinig tot geen menselijke tussenkomst vereisen, zodat hun dataspecialisten meer tijd overhouden om zich te richten op strategisch werk.
Natuurlijk mag AI nooit losgelaten worden. Hoe kan de organisatie het AI-besluitvormingsproces controleren en hebben menselijke operators enige controle over wat AI kan worden geïmplementeerd binnen het bedrijf? Een bedrijf moet daarom aanzienlijke voorzorgsmaatregelen nemen om ethisch en veilig AI-gedrag te garanderen.
Naast deze vangrails moet het AI-besluitvormingsproces worden afgestemd op de bredere bedrijfsstrategie. Stel je voor dat een puur AI-gestuurd callcenter voor een verzekeringsmaatschappij die zich richt op vrouwen plotseling besluit om polissen aan mannen te verkopen. Hoewel er misschien geen ethische of veiligheidsproblemen aan deze beslissing kleven, past het niet bij de missie van de organisatie.
Bedrijven moeten daarom nadenken over hoe ze het AI-besluitvormingsproces kunnen sturen om ervoor te zorgen dat het binnen de grenzen blijft van hoe het bedrijf wil werken.
Praktisch zinvol
Zoals bij elke technologie komt het gebruik van AI neer op het goed uitvoeren van de basis. Dit betekent dat wanneer AI wordt gebruikt als onderdeel van een data-engineeringoplossing, specialisten moeten nadenken over de technologie voor het analyseren van gegevens, het opsporen van anomalieën en uitschieters, geavanceerde matching voor het analyseren van gegevenskwaliteit, natuurlijke taalverwerking voor het extraheren van gegevens uit ongestructureerde gegevens en het uitvoeren van sentimentanalyse, aanbevelingssystemen en fraudedetectie. Dit zijn allemaal dingen die onmisbaar zijn voor data engineers. AI kan alleen worden gebruikt om de technieken verder te verbeteren.
Tijdens dit alles blijft de rol van de data engineer veilig. AI is niet iets dat de menselijke vaardigheden en unieke domeinkennis van een organisatie waarbij een ingenieur betrokken is, zal vervangen. In plaats daarvan kan een data-engineer in combinatie met AI-technologie modellen verfijnen om de prestaties te verbeteren, gegevensanalyses verbeteren en meer inzicht krijgen in hoe gegevens het beste kunnen worden gebruikt.
Dit betekent natuurlijk niet dat data-engineers achterover kunnen leunen en kunnen ontspannen. Ze moeten een mentaliteit van voortdurend bijscholen en leren omarmen. Gezien de manier waarop de technologie verandert, zal de data engineer van de toekomst iemand zijn die een goede mix heeft van wiskundige, statistische, computerwetenschappelijke en datavaardigheden en -kennis. Het komt erop aan de technologie te gebruiken in combinatie met hun eigen vaardigheden en ervaring om datagestuurde oplossingen te creëren die nog steeds voldoen aan alle vereisten op het gebied van datagovernance.