Back to Blogs
Blog Img

Een veteraan over de trends binnen machine vision

Sinds 2014 heeft machine vision een enorme boost gekregen: neurale netwerken begrijpen afbeeldingen en video’s veel beter, waardoor talloze (nieuwe) toepassingen levensvatbaar zijn geworden. John Beuving, machine vision-specialist en CTO bij SmarterVision, schetst de huidige stand van zaken. Wat zijn de belangrijkste toepassingen, ontwikkelingen en trends? En welke tips moeten bedrijven in acht nemen die met machine vision aan de slag willen gaan?

 

Sinds 2003 bezig met computer vision, gepromoveerd op model-free tracking en tegenwoordig ontwikkelaar van sociaal relevante computer vision-oplossingen bij SmarterVision: John Beuving mag oprecht een computer vision-veteraan worden genoemd. Voor Spilberg gaf hij op 23 juni jl. het webinar ‘Machine vision: learning increasingly complex real-world scenarios with limited to no annotated data’. Daarin zet hij technieken uiteen die neurale netwerken beter in staat stellen om afbeeldingen en – vooral – video’s te begrijpen. Na afloop van het webinar spreken we hem over machine vision, oftewel de toepassing van computer vision in de praktijk.

 

Van kwaliteitscontroles tot het spotten van olifantenpopulaties

Er komen steeds meer situaties waarin machine vision-systemen taken sneller, goedkoper of beter kunnen afhandelen dan mensen, legt Beuving uit. “Daarbij gaat het vooral om repetitieve taken die we regelmatig doen en die binnen een seconde zijn af te ronden. Met name in de zorg, beveiliging en infrastructuur zijn er volop mogelijkheden. Maar denk ook aan zelfrijdende auto’s, lopende bandwerk zoals het sorteren van appels en aan kwaliteitscontroles, die plaatsvinden op basis van zogeheten automatische anomaly detections. Meer in het oog springende voorbeelden zijn drones die bruggen en landbouwgewassen inspecteren. Of de software die we ontwikkelen bij Sensing Clues, waar ik vrijwilliger ben, waarmee bijvoorbeeld olifantenpopulaties kunnen worden waargenomen op basis van satellietbeelden.”

 

Hoe snel de vooruitgang ook is, er gelden nog steeds legio beperkingen voor de inzet van machine vision. “Je kunt het in de regel bijvoorbeeld niet gebruiken voor taken die langer duren dan een seconde, of voor sociale interacties. Groepsdynamiek is namelijk zeer ingewikkeld. Allereerst door de hoeveelheid data, maar daarnaast vooral ook door de complexe manier van communiceren tussen mensen. Dit gaat overigens de komende jaren wel beter worden. Niet per se door de toegenomen hoeveelheid geannoteerde data, wel door de verbeterde techniek.”

 

‘Machine vision kan steeds meer dienstenberoepen vervangen’

De komende jaren zullen steeds meer menselijke taken en zelfs hele functies door machine vision-systemen kunnen worden gedaan, verwacht Beuving. “Denk bijvoorbeeld aan taxi- en vrachtwagenchauffeurs, die overbodig worden door zelfrijdende auto’s en vrachtwagens. Ik vind het ook interessant om na te denken over dienstenberoepen zoals kapper en helpdeskmedewerkers, die vooral interacties met één persoon hebben. Zulk soort interacties kunnen meer en meer overgenomen worden.”

 

Trends: edge computing en gecombineerde data

De opmars van machine vision wordt gefaciliteerd door edge computing. Omdat de data wordt verwerkt bij de bron van de data in plaats van in een datacenter, wordt de response time verbeterd en de bandbreedte gereduceerd. Dit is onder meer interessant voor tijdskritische machine vision-toepassingen binnen bijvoorbeeld de beveiliging, productieomgevingen en zelfrijdende auto’s. Beuving: “De edge wordt steeds goedkoper, met minder stroomverbruik en steeds kleinere apparaten. Daardoor wordt er meer en meer mogelijk op de edge, dus op het apparaat zelf. Bij drones worden video’s nu bijvoorbeeld vaak pas achteraf verwerkt. Maar als dat op het apparaat zelf kan, worden er real-time toepassingen mogelijk.”

 

Ook de grootschalige beschikbaarheid van andersoortige data dan afbeeldingen en video’s ondersteunt de machine vision-revolutie. “Denk bijvoorbeeld aan beveiligings- of wildlife-camera’s die worden getriggerd door geluiden. In plaats van alleen triggeren kan andersoortige data ook worden gecombineerd met beeld om te dienen als input voor een neuraal netwerk. Beschik je bij het vogelspotten over video’s met geluid, dan weet je zeker wat voor vogel het is. Een foto van de Eiffeltoren gecombineerd met positiedata geeft duidelijkheid: is het de toren in Parijs of de replica in Las Vegas? Ook zelfrijdende auto’s combineren machine vision met andere soorten data.”

 

Deepfakes zijn zowel zegening als zorgenkind

Lesgeven op afstand, filmkarakters creëren, het reconstrueren van plaatsen delict: er zijn genoeg positieve use cases te bedenken voor deepfakes. Momenteel worden die echter overstemd door alle potentiële negatieve gevolgen. “Deepfakes zijn gebaseerd op machine vision-technieken. Omdat zowel de techniek erachter als de data steeds beter wordt, wordt het steeds moeilijker om te zeggen wat echt is en wat een deepfake. Ik weet waarop ik moet letten, maar de meeste mensen zien het al niet meer bij de betere deepfakes”, aldus Beuving.

 

Beuving verwacht dat, naarmate de kwaliteit van deepfakes toeneemt en het makkelijker wordt om ze te maken, de toch al scherpe discussie over deepfakes nog veel scherper gaat worden de komende jaren. Er zijn immers al talloze voorbeelden van deepfake-incidenten, van CEO-fraude tot wraakporno.

 

Stap één: meer data

Door de sterk verbeterde grafische processors en leermethodes voor deep learning, in combinatie met grotere datasets, zit machine vision sinds 2014 enorm in de lift. Daardoor renderen investeringen in machine vision in steeds meer situaties.

 

Wil je als organisatie aan de slag gaan met machine vision? Hoewel Beuving in het webinar spectaculaire technieken beschrijft om meer uit data te halen, luidt zijn advies aan bedrijven altijd: probeer tóch om eerst zoveel mogelijk data te verzamelen. “We kampen echter met een dataprobleem. Er wordt enorm veel data gegenereerd, alleen op YouTube wordt bijvoorbeeld al meer dan 80 jaar video per dag geüpload. Dat is echter vooral ongeannoteerd. Algoritmes hebben, althans van oudsher, juist geannoteerde data nodig voor diepgaand begrip van video.”

 

Meer halen uit minder data

Self-supervised learning, zo stelt Beuving, is voor de meeste bedrijven de go to-manier om het dataprobleem (zo goed mogelijk) op te lossen. Mits er althans data beschikbaar is. Bij supervised learning moet een mens alle datapunten labelen, waarmee het neurale netwerk vervolgens wordt getraind. Naast traag en duur is dit ook foutgevoelig. Beuving: “Self-supervised learning, momenteel een hype in machine vision-land, pakt het revolutionair anders aan: data hoeft niet langer te worden gelabeld. Er is sprake van self-labeling, waarbij de data zichzelf annoteert en van zichzelf leert. Met weinig middelen krijg je zo hele rijke neurale netwerken.”

 

Volgens de machine vision-expert kun je het resultaat het beste finetunen met meta-learning of active learning. Bij meta-learning leert het model van weinig of zelfs geen samples in de trainingsset. Active learning wil zeggen dat mensen alleen de moeilijke datapunten labelen, waarop het model opnieuw wordt getraind met inbegrip van de nieuwe datapunten. Beuving: “Deze werkwijze biedt bijvoorbeeld uitkomst voor organisaties die kampen met een gelimiteerde hoeveelheid geannoteerde data omdat ze werken met robots. Maar je kunt ook denken aan de medische wereld, waar de beelden te divers zijn en de beschikbaarheid problematisch is vanwege privacyregels.”

 

Gebruik de kracht van Facebook en Google

Het instapniveau voor organisaties die aan de slag willen gaan met machine vision is volgens Beuving vrij hoog: “Out-of-the-box-oplossingen zijn niet beschikbaar en je hebt er veel ervaring en kennis voor nodig. Gelukkig kun je al op een relatief hoog niveau instappen dankzij Facebook en Google. Zij doen hier veel onderzoek naar en stellen allerlei open-source standaard frameworks voor machine vision beschikbaar op GitHub. Daardoor kun je als organisatie beginnen met je eigen onderzoek waar Facebook en Google zijn geëindigd. Zo doen wij dat bij SmarterVision en Sensing Clues ook.”

 

Het lastigste: hoe haal je het maximale uit de beschikbare data? “Dat is gewoon ervaring. Je moet er een gevoel bij krijgen en dat kun je alleen maar aanscherpen door het vaak te doen. Elke soort data is namelijk anders. Kijk bijvoorbeeld naar Facebook PyTorch. Dat is een framework dat bestaat uit een soort Lego-blokjes die jij moet combineren tot een oplossing. Het moeilijke is niet alleen dat je die combinatie perfect in elkaar moet zetten, maar ook dat je zo goed mogelijk gebruik moet maken van de beschikbare data.”