Hoe weinig audio is er nodig om iemands stem te klonen?

De huidige commerciële tools voor het klonen van stemmen kunnen een overtuigende synthetische stem produceren uit slechts drie seconden audio. Betere modellen gebruiken 30 tot 60 seconden om meer van de natuurlijke variatie, buiging en accent van een spreker vast te leggen. Die audio kan uit elke bron komen: een conferentie-opname, een podcast, een YouTube-interview, een bedrijfsvideo of een voicemailbegroeting. Eenmaal gekloond, kan de stem worden gebruikt om willekeurige spraak in realtime of als vooraf opgenomen audio te genereren.

Kan deepfake-video werken tijdens een live videogesprek?

Ja. Realtime face-swapping-tools kunnen op een standaard GPU draaien en het gezicht van een spreker tijdens een live videogesprek vervangen met voldoende kwaliteit om een ontvanger te misleiden die niet op zoek is naar tekenen van manipulatie. Bij de Arup-fraude in februari 2024, waarbij een financiële medewerker werd misleid om 25 miljoen dollar over te maken, was sprake van een live videogesprek met meerdere personen waarin alle andere deelnemers waren deepfaked. De medewerker dacht dat hij met echte collega's sprak, omdat de gezichten, stemmen en maniertjes overeenkwamen met de mensen die hij herkende.

Wat is een vishing-aanval?

Vishing is voice phishing: een telefonische social engineering-aanval waarbij een vertrouwde persoon of organisatie wordt nagebootst om het doelwit te manipuleren om inloggegevens te onthullen, transacties te autoriseren of toegang te verlenen. AI-stemklonen heeft de verfijning van vishing aanzienlijk vergroot door aanvallers in staat te stellen zich voor te doen als een specifiek genoemd individu wiens stem bekend is bij het doelwit, in plaats van te vertrouwen op een anonieme beller die beweert van een bank of IT-afdeling te zijn.

Hoe verifiëren bedrijven hun identiteit zonder uitsluitend op spraak of video te vertrouwen?

De meest effectieve aanpak combineert een secundair kanaal met een gedeeld geheim. Voor elk gevoelig verzoek dat per telefoon of videogesprek binnenkomt, moet u een bevestiging via een ander kanaal vereisen (e-mail van het bedrijfsaccount, een goedkeuring in een workflowsysteem of een terugbelactie naar een vooraf geregistreerd nummer) en een codewoord of -zin verifiëren die vooraf is overeengekomen en niet openbaar beschikbaar is. Dit betekent dat een fraudeur die het ene kanaal controleert, de verificatie niet kan voltooien zonder ook het tweede kanaal te controleren.

Deepfakes en identiteitsfraude: hoe AI-stem- en videomanipulatie bedrijven target

Belangrijkste afhaalrestaurants

AI-tools voor het klonen van stemmen kunnen de stem van een persoon repliceren uit drie seconden audio, waardoor real-time nabootsing van identiteit via telefoongesprekken mogelijk wordt zonder technische barrière voor aanvallers.
Het Arup-incident van februari 2024, waarbij een financieel medewerker HK$200 miljoen ($25 miljoen) overmaakte na een deepfaked videogesprek, toonde aan dat real-time video-nabootsing nu op grote schaal haalbaar is.
AI-stemdeepfakes worden gebruikt bij vishing-aanvallen gericht op financiële teams, C-suite-assistenten en IT-helpdesks om transacties te autoriseren, inloggegevens te resetten en toegangscontroles te omzeilen.
Identiteitsverificatiesystemen die afhankelijk zijn van live video of stemcontroles worden steeds kwetsbaarder naarmate de kwaliteit van real-time deepfake-tools verbetert.
Effectieve verdediging combineert een secundair verificatiekanaal, een gedeeld codewoordprotocol voor gevoelige verzoeken en personeelstraining gericht op specifieke deepfake-scenario's in plaats van algemeen phishing-bewustzijn.
Organisaties die klanten of werknemers op afstand onboarden, hebben technologie voor liveness-detectie nodig die verder gaat dan videogebaseerde controles en gedrags- en documentsignalen omvat.

Het videogesprek van $ 25 miljoen

In februari 2024 ontving een medewerker van de financiële afdeling van Arup in Hong Kong een e-mail, zogenaamd van de Britse financieel directeur van het bedrijf, met het verzoek om vertrouwelijke overdracht. De medewerker was sceptisch. Om hun zorgen weg te nemen, werden ze uitgenodigd voor een videogesprek met de CFO en een aantal andere senior collega’s.

Iedereen aan dat gesprek was deepfaked. De gezichten, stemmen en maniertjes kwamen zo goed overeen met de echte individuen dat de werknemer overtuigd was. Tijdens verschillende transacties werd 200 miljoen HK$, ongeveer 25 miljoen dollar, overgemaakt naar rekeningen die door de fraudeurs werden beheerd. De fraude werd pas ontdekt toen de medewerker rechtstreeks contact opnam met het Britse hoofdkantoor.

Het Arup-incident stond niet op zichzelf; het was het publieke gezicht van een techniek die al in tientallen geheime fraudezaken was ingezet. Het nam alle resterende twijfel weg dat real-time synthetische video de drempel had overschreden van onderzoeksdemonstratie naar operationeel crimineel instrument.

Belangrijke context

Voor deepfake-fraude met spraak of video is niet vereist dat de aanvaller een natiestatelijke actor of een technisch geavanceerde groep is. Tools die in staat zijn tot realtime stemklonen en face-swapping zijn in de handel verkrijgbaar en op open-source repositories, vaak voor minder dan $ 50 per maand aan abonnementskosten.

Hoe stemklonen werkt

Bij het klonen van stemmen wordt gebruik gemaakt van deep learning-modellen, meestal een variant van een tekst-naar-spraak-architectuur, getraind op een voorbeeld van de audio van een doelspreker. Op basis van een korte opname leert het model de akoestische kenmerken van de stem van die persoon: timbre, ritme, toonhoogtebereik en spreekstijl. Vervolgens kan het vanuit elke tekstinvoer nieuwe spraak in die stem synthetiseren.

Drie seconden audio is voor sommige commerciële tools voldoende om een herkenbare kloon te produceren. Dertig seconden levert een aanzienlijk beter resultaat op. Het audiofragment kan afkomstig zijn van elke openbare bron: een LinkedIn-video, een bedrijfspresentatie, een podcast-interview, een opname van een persconferentie of een voicemailbegroeting achtergelaten op een openbare zakelijke lijn.

De gekloonde stem kan op twee manieren worden gebruikt. De vooraf opgenomen modus genereert audiofragmenten die in een voicemail of audiobericht worden ingevoegd. De real-time modus verwerkt tekstinvoer en converteert deze naar de stem van het doelwit met een latentie die laag genoeg is om een live telefoongesprek te voeren, waarbij de aanvaller typt wat hij wil dat de stem zegt en de synthese door het gesprek heen speelt.

Minimale audiosample nodig voor een werkende stemkloon met de huidige commerciële tools

$ 25 miljoen

Overgedragen in het kader van de Arup deepfake-fraude, februari 2024

Toename van deepfake-fraudepogingen in de financiële dienstverlening jaar na jaar, per sectordreigingsinformatie

Aanvalstypen in de bedrijfsomgeving

📞

Vishing: AI-stemimitatie via de telefoon

Een aanvaller kloont de stem van een CEO, CFO of IT-manager en belt een medewerker met een verzoek onder tijdsdruk: autoriseer een overboeking, geef een tijdelijk wachtwoord op of verleen systeemtoegang. Het telefoontje lijkt afkomstig te zijn van een bekende. De stem klinkt goed. De beller kent details over de organisatie uit openbare bronnen. Financiële teams, IT-helpdesks en uitvoerend assistenten zijn de voornaamste doelwitten, omdat zij de bevoegdheid hebben om snel op mondelinge verzoeken te reageren.

📹

Deepfaked videogesprekken voor autorisatie van bankfraude

Aanvallers gebruiken face-swap-software om hun gezicht te vervangen door dat van een doelwit in een live videogesprek. Gecombineerd met een gekloonde stem lijkt het resulterende gesprek een echte collega te laten zien die in realtime spreekt. Deze techniek werd gebruikt in de Arup-zaak en komt steeds vaker voor bij grootschalige fraudepogingen, vooral wanneer e-mailbevestiging alleen niet voldoende is om geld vrij te maken en een telefoontje wordt gebruikt als secundaire verificatie.

📋

KYC-bypass met synthetische identiteitsdocumenten

Know Your Customer-processen die afhankelijk zijn van liveness-checks via video worden steeds vaker het doelwit van aanvallen die door AI gegenereerde documentafbeeldingen combineren met real-time face-swapping om een synthetische identiteit te presenteren die overeenkomt met een verzonnen of gestolen document. Fraudeurs gebruiken deze technieken om bankrekeningen te openen, krediet aan te vragen of onder valse identiteit aan boord te gaan bij financiële instellingen, fintech-platforms en beurzen.

🔒

Inloggegevens opnieuw instellen via nagebootste helpdeskoproepen

Een aanvaller met een gekloonde stem van een bekende medewerker belt de IT-helpdesk en beweert dat hij geen toegang meer heeft tot een account. Ze verstrekken de naam van de werknemer, de afdeling en voldoende contextuele details verzameld uit openbare bronnen of eerdere verkenningen om mondelinge verificatie te doorstaan. De helpdesk reset de inloggegevens of voegt een door de aanvaller gecontroleerde herstelmethode toe, waardoor toegang tot bedrijfssystemen wordt verleend zonder dat er malware wordt ingezet.

De Arup-medewerker deed alles goed door om een videogesprek te vragen om het verzoek te verifiëren. De aanval slaagde juist omdat die verificatiestap werd voorzien en verijdeld.

Waarom standaardverificatie mislukt

Organisaties vertrouwen doorgaans op drie lagen van informele verificatie voor gevoelige mondelinge verzoeken: ze herkennen de stem, ze kunnen de persoon op video zien en de beller weet dingen die alleen die persoon weet. Ze kunnen nu alle drie worden verslagen door een voorbereide aanvaller.

Spraakherkenning is in de beste tijden feilbaar; De audiokwaliteit van telefoons introduceert compressieartefacten die de verschillen tussen een echte stem en een goede kloon maskeren. Videoverificatie is, zoals Arup aantoonde, niet langer betrouwbaar als face-swap-software in realtime op consumentenhardware kan draaien. Nummerherkenning is triviaal vervalst. En de contextuele details die klinken als voorkennis zijn vaak beschikbaar via LinkedIn-profielen, bedrijfswebsites, jaarverslagen en opnames van openbare evenementen.

Dit is geen falen van het individuele oordeel. Werknemers die zijn opgeleid om sceptisch te zijn tegenover phishing via e-mail, hebben geen gelijkwaardige training voor stem- of video-nabootsing. Hun instinct om te verifiëren via een tweede kanaal, zoals het aanvragen van een videogesprek, is correct, maar wordt uitgebuit door aanvallers die zich precies op dat antwoord voorbereiden.

Bediening die echt werkt

Secundair kanaal en codewoordprotocol

Elk gevoelig verzoek dat binnenkomt per telefoon of videogesprek, of het nu gaat om een betaling, het opnieuw instellen van de inloggegevens of systeemtoegang, moet via een volledig afzonderlijk kanaal worden bevestigd. Gebruik een ander medium: als het verzoek telefonisch is binnengekomen, bevestig dit dan per e-mail naar het bedrijfsadres. Als het via een videogesprek is gebeurd, bel dan terug op een vooraf geregistreerd direct nummer. Combineer dit met een gedeeld mondeling codewoord dat vooraf buiten de band is overeengekomen, een codewoord dat niet in een e-mail of document is geschreven waartoe bij een inbreuk toegang zou kunnen worden verkregen. Een beller die het codewoord niet kan uitbrengen, ontvangt de actie niet, hoe overtuigend de stem of het gezicht ook lijkt.

Betalingsautorisatie boven een drempel

Verwijder mondelinge autorisatie als geldige trigger voor elke overdracht boven een gedefinieerde drempel. Voor alle betalingen boven deze limiet zijn twee goedkeuringen vereist via het zakelijke betalingssysteem, en niet via een telefoontje. Dit is een procesverandering, geen technologische verandering, maar het elimineert direct het mechanisme waarop fraudeoproepen berusten.

Specifieke opleiding van het personeel op het gebied van AI-spraak- en videofraude

Generieke phishing-bewustzijnstraining bereidt het personeel niet voor op stem- of video-nabootsing. Voer gerichte scenario's uit: speel een stemkloon van een senior executive die een frauduleus verzoek indient en laat medewerkers het verificatieprotocol oefenen. De ervaring van het horen van een bekende stem die verkeerd is, is een effectievere trainingsinterventie dan het lezen over het concept. Concentreer de training op de meest beoogde rollen: financiële teams, IT-helpdesks en uitvoerende assistenten.

Upgrade KYC-levendigheidsdetectie

Organisaties die klanten op afstand onboarden met behulp van liveness-checks via video, moeten de aanpak van hun KYC-provider op het gebied van deepfake-detectie controleren. Passieve liveness-checks die gezichtsbewegingen meten, zijn steeds vaker onvoldoende. Zoek naar aanbieders die passieve en actieve liveness in combinatie gebruiken, documentauthenticiteitscontroles die verder gaan dan beeldanalyse, en gedragssignalen zoals apparaatvingerafdrukken en detectie van sessieafwijkingen als aanvullende signalen.

Validatie van beller-ID op de netwerklaag

Werk samen met uw telefonieprovider om STIR/SHAKEN-attest te implementeren, waarmee wordt gevalideerd dat het nummer van een beller door zijn provider is geverifieerd. Hoewel het niet onfeilbaar is, legt het de lat hoger voor nummerspoofing bij oproepen die afkomstig zijn van compatibele netwerken en levert het een signaal dat kan worden meegenomen in de oproepafhandelingsprocedures.

Executive en hoogwaardige contactaudio-watermerken

Voor organisaties met een hoge blootstelling aan leidinggevenden kunt u audiowatermerken overwegen voor gevoelige opnamen. Sommige detectiediensten bieden de mogelijkheid om onmerkbare markeringen in te sluiten in geautoriseerde audio van leidinggevenden, waardoor elke opname van de stem van die leidinggevende kan worden vergeleken met de watermerkdatabase. Dit is relevanter voor financiële instellingen en grote ondernemingen waar de nabootsing van leidinggevenden een specifiek en terugkerend dreigingsprofiel is.