- AI-tools voor het klonen van stemmen kunnen de stem van een persoon repliceren uit drie seconden audio, waardoor real-time nabootsing van identiteit via telefoongesprekken mogelijk wordt zonder technische barrière voor aanvallers.
- Het Arup-incident van februari 2024, waarbij een financieel medewerker HK$200 miljoen ($25 miljoen) overmaakte na een deepfaked videogesprek, toonde aan dat real-time video-nabootsing nu op grote schaal haalbaar is.
- AI-stemdeepfakes worden gebruikt bij vishing-aanvallen gericht op financiële teams, C-suite-assistenten en IT-helpdesks om transacties te autoriseren, inloggegevens te resetten en toegangscontroles te omzeilen.
- Identiteitsverificatiesystemen die afhankelijk zijn van live video of stemcontroles worden steeds kwetsbaarder naarmate de kwaliteit van real-time deepfake-tools verbetert.
- Effectieve verdediging combineert een secundair verificatiekanaal, een gedeeld codewoordprotocol voor gevoelige verzoeken en personeelstraining gericht op specifieke deepfake-scenario's in plaats van algemeen phishing-bewustzijn.
- Organisaties die klanten of werknemers op afstand onboarden, hebben technologie voor liveness-detectie nodig die verder gaat dan videogebaseerde controles en gedrags- en documentsignalen omvat.
Het videogesprek van $ 25 miljoen
In februari 2024 ontving een medewerker van de financiële afdeling van Arup in Hong Kong een e-mail, zogenaamd van de Britse financieel directeur van het bedrijf, met het verzoek om vertrouwelijke overdracht. De medewerker was sceptisch. Om hun zorgen weg te nemen, werden ze uitgenodigd voor een videogesprek met de CFO en een aantal andere senior collega’s.
Iedereen aan dat gesprek was deepfaked. De gezichten, stemmen en maniertjes kwamen zo goed overeen met de echte individuen dat de werknemer overtuigd was. Tijdens verschillende transacties werd 200 miljoen HK$, ongeveer 25 miljoen dollar, overgemaakt naar rekeningen die door de fraudeurs werden beheerd. De fraude werd pas ontdekt toen de medewerker rechtstreeks contact opnam met het Britse hoofdkantoor.
Het Arup-incident stond niet op zichzelf; het was het publieke gezicht van een techniek die al in tientallen geheime fraudezaken was ingezet. Het nam alle resterende twijfel weg dat real-time synthetische video de drempel had overschreden van onderzoeksdemonstratie naar operationeel crimineel instrument.
Voor deepfake-fraude met spraak of video is niet vereist dat de aanvaller een natiestatelijke actor of een technisch geavanceerde groep is. Tools die in staat zijn tot realtime stemklonen en face-swapping zijn in de handel verkrijgbaar en op open-source repositories, vaak voor minder dan $ 50 per maand aan abonnementskosten.
Hoe stemklonen werkt
Bij het klonen van stemmen wordt gebruik gemaakt van deep learning-modellen, meestal een variant van een tekst-naar-spraak-architectuur, getraind op een voorbeeld van de audio van een doelspreker. Op basis van een korte opname leert het model de akoestische kenmerken van de stem van die persoon: timbre, ritme, toonhoogtebereik en spreekstijl. Vervolgens kan het vanuit elke tekstinvoer nieuwe spraak in die stem synthetiseren.
Drie seconden audio is voor sommige commerciële tools voldoende om een herkenbare kloon te produceren. Dertig seconden levert een aanzienlijk beter resultaat op. Het audiofragment kan afkomstig zijn van elke openbare bron: een LinkedIn-video, een bedrijfspresentatie, een podcast-interview, een opname van een persconferentie of een voicemailbegroeting achtergelaten op een openbare zakelijke lijn.
De gekloonde stem kan op twee manieren worden gebruikt. De vooraf opgenomen modus genereert audiofragmenten die in een voicemail of audiobericht worden ingevoegd. De real-time modus verwerkt tekstinvoer en converteert deze naar de stem van het doelwit met een latentie die laag genoeg is om een live telefoongesprek te voeren, waarbij de aanvaller typt wat hij wil dat de stem zegt en de synthese door het gesprek heen speelt.
Aanvalstypen in de bedrijfsomgeving
De Arup-medewerker deed alles goed door om een videogesprek te vragen om het verzoek te verifiëren. De aanval slaagde juist omdat die verificatiestap werd voorzien en verijdeld.
Waarom standaardverificatie mislukt
Organisaties vertrouwen doorgaans op drie lagen van informele verificatie voor gevoelige mondelinge verzoeken: ze herkennen de stem, ze kunnen de persoon op video zien en de beller weet dingen die alleen die persoon weet. Ze kunnen nu alle drie worden verslagen door een voorbereide aanvaller.
Spraakherkenning is in de beste tijden feilbaar; De audiokwaliteit van telefoons introduceert compressieartefacten die de verschillen tussen een echte stem en een goede kloon maskeren. Videoverificatie is, zoals Arup aantoonde, niet langer betrouwbaar als face-swap-software in realtime op consumentenhardware kan draaien. Nummerherkenning is triviaal vervalst. En de contextuele details die klinken als voorkennis zijn vaak beschikbaar via LinkedIn-profielen, bedrijfswebsites, jaarverslagen en opnames van openbare evenementen.
Dit is geen falen van het individuele oordeel. Werknemers die zijn opgeleid om sceptisch te zijn tegenover phishing via e-mail, hebben geen gelijkwaardige training voor stem- of video-nabootsing. Hun instinct om te verifiëren via een tweede kanaal, zoals het aanvragen van een videogesprek, is correct, maar wordt uitgebuit door aanvallers die zich precies op dat antwoord voorbereiden.
Bediening die echt werkt
Secundair kanaal en codewoordprotocol
Elk gevoelig verzoek dat binnenkomt per telefoon of videogesprek, of het nu gaat om een betaling, het opnieuw instellen van de inloggegevens of systeemtoegang, moet via een volledig afzonderlijk kanaal worden bevestigd. Gebruik een ander medium: als het verzoek telefonisch is binnengekomen, bevestig dit dan per e-mail naar het bedrijfsadres. Als het via een videogesprek is gebeurd, bel dan terug op een vooraf geregistreerd direct nummer. Combineer dit met een gedeeld mondeling codewoord dat vooraf buiten de band is overeengekomen, een codewoord dat niet in een e-mail of document is geschreven waartoe bij een inbreuk toegang zou kunnen worden verkregen. Een beller die het codewoord niet kan uitbrengen, ontvangt de actie niet, hoe overtuigend de stem of het gezicht ook lijkt.
Betalingsautorisatie boven een drempel
Verwijder mondelinge autorisatie als geldige trigger voor elke overdracht boven een gedefinieerde drempel. Voor alle betalingen boven deze limiet zijn twee goedkeuringen vereist via het zakelijke betalingssysteem, en niet via een telefoontje. Dit is een procesverandering, geen technologische verandering, maar het elimineert direct het mechanisme waarop fraudeoproepen berusten.
Specifieke opleiding van het personeel op het gebied van AI-spraak- en videofraude
Generieke phishing-bewustzijnstraining bereidt het personeel niet voor op stem- of video-nabootsing. Voer gerichte scenario's uit: speel een stemkloon van een senior executive die een frauduleus verzoek indient en laat medewerkers het verificatieprotocol oefenen. De ervaring van het horen van een bekende stem die verkeerd is, is een effectievere trainingsinterventie dan het lezen over het concept. Concentreer de training op de meest beoogde rollen: financiële teams, IT-helpdesks en uitvoerende assistenten.
Upgrade KYC-levendigheidsdetectie
Organisaties die klanten op afstand onboarden met behulp van liveness-checks via video, moeten de aanpak van hun KYC-provider op het gebied van deepfake-detectie controleren. Passieve liveness-checks die gezichtsbewegingen meten, zijn steeds vaker onvoldoende. Zoek naar aanbieders die passieve en actieve liveness in combinatie gebruiken, documentauthenticiteitscontroles die verder gaan dan beeldanalyse, en gedragssignalen zoals apparaatvingerafdrukken en detectie van sessieafwijkingen als aanvullende signalen.
Validatie van beller-ID op de netwerklaag
Werk samen met uw telefonieprovider om STIR/SHAKEN-attest te implementeren, waarmee wordt gevalideerd dat het nummer van een beller door zijn provider is geverifieerd. Hoewel het niet onfeilbaar is, legt het de lat hoger voor nummerspoofing bij oproepen die afkomstig zijn van compatibele netwerken en levert het een signaal dat kan worden meegenomen in de oproepafhandelingsprocedures.
Executive en hoogwaardige contactaudio-watermerken
Voor organisaties met een hoge blootstelling aan leidinggevenden kunt u audiowatermerken overwegen voor gevoelige opnamen. Sommige detectiediensten bieden de mogelijkheid om onmerkbare markeringen in te sluiten in geautoriseerde audio van leidinggevenden, waardoor elke opname van de stem van die leidinggevende kan worden vergeleken met de watermerkdatabase. Dit is relevanter voor financiële instellingen en grote ondernemingen waar de nabootsing van leidinggevenden een specifiek en terugkerend dreigingsprofiel is.