Enkeltrick 2.0. – Generative KI erzeugt täuschend echte Audio Deep Fakes

Beim sogenannten „Enkeltrick“ gibt sich ein Täter als Verwandter, meist als Enkelkind des Opfers aus und bittet um Hilfe in einer Krisensituation, in der Regel geht es dabei um finanzielle Unterstützung – so weit, so bekannt. Wenn Kriminelle nun für ihre Betrugsversuche die generative KI einspannen und die Anwendungen die Stimmen der hilfsbedürftigen Verwandten imitieren lassen, ist das Ergebnis erschreckend gut.

Beim sogenannten „Enkeltrick“ gibt sich ein Täter als Verwandter, meist als Enkelkind des Opfers aus und bittet um Hilfe in einer Krisensituation, in der Regel geht es dabei um finanzielle Unterstützung – so weit, so bekannt. Wenn Kriminelle nun für ihre Betrugsversuche die generative KI einspannen und die Anwendungen die Stimmen der hilfsbedürftigen Verwandten imitieren lassen, ist das Ergebnis erschreckend gut. Für ihr Training benötigen KI-Anwendungen teilweise lediglich Audiomaterial in einem Umfang von 30 Minuten, um ein vollständiges Stimmprofil zu erstellen, mit dem sie dann das Sprechen einer Person imitieren und beliebigen Text „lebensecht“ aussprechen können. An das für diese Art von Deep Fakes benötigte Audiomaterial kommen Cyber-Kriminelle dank Social Media heute leichter als jemals zuvor. Dabei gilt, je mehr Material der KI zur Verfügung steht, desto schwerer wird es für potentielle Opfer, Auffälligkeiten in der imitierten Stimme zu erkennen, da die KI nicht nur die Stimmhöhe, den Tonfall und Besonderheiten in der Aussprache regionaler Dialekte oder Soziolekte erkennt und verwendet, sondern auch ganz individuelle Redewendungen und Sprachmuster.

Der US-amerikanischer Hersteller von Netzwerk- und Computersicherheitssoftware McAfee hat nun unter dem Titel „Beware the Artificial Impostor“ eine Analyse weltweiter repräsentativer Nutzer-Befragungen zu dem Thema veröffentlicht. Der Bericht verweist darauf, dass weltweit 25 Prozent der Befragten angaben, selbst schon einmal bei einem Betrugsanruf mit einer mittels KI imitierten Stimme konfrontiert gewesen zu sein oder jemanden zu kennen, dem dies passiert ist. Da Instant Voice Cloning für das Erzeugen einer synthetischen Stimme aus 30 Minuten Audio-Samples bereits von Service-Dienstleistern wie Eleven Labs online angeboten wird, scheint es nur eine Frage der Zeit zu sein, dass KI-Stimmen-basierte Betrugsversuche in den Kampagnen von Cyber-Kriminellen eine noch größere Rolle spielen und zwischenmenschliche Hilfsbereitschaft noch stärker ausnutzen. Rund die Hälfte der Befragten würde helfen, wenn bei ihnen ein Anruf wegen eines Autounfalls einginge, 47 Prozent bei einem Anruf wegen eines Diebstahls, 43 Prozent bei einem verlorenen Portemonnaie und 41 Prozent, wenn Verwandte im Urlaub Hilfe bräuchten.

Als Ziele für diese Art von Betrug sind jedoch keineswegs nur private Verbraucher geeignet. Auch in der Geschäftswelt wird schließlich vieles per Telefongespräch oder Audionachricht organisiert und abgewickelt. Ein Großteil der von derlei Betrugsversuchen Betroffenen berichtet zudem, sie hätten nicht an der Stimme selbst erkennen können, ob es sich um einen echten Anruf handelt oder nicht. „Aktuelle Beispiele reichen von CEO-Geschenkkartenbetrug bis hin zu digitalem Betrug und vielem mehr,“ erläutert Martin J. Krämer, Security Awareness Advocate beim deutschen Anbieter von Cyber-Sicherheitstrainings KnowBe4. Die neue Entwicklung bei den Deep Fakes erfordert, „dass die Benutzer innerhalb des Unternehmens kontinuierlich an Security Awareness-Trainings teilnehmen, damit sie wachsam sind, selbst wenn die Stimme am anderen Ende des Telefons vertraut klingt.“

Zurück

Diesen Beitrag teilen
Weitere Meldungen zum Thema
oben