Kontakt

News

Tekst-til-tale, hvad er det, og hvordan man stopper svindel ved at bruge det?

Everyone seems to agree that Artificial Intelligence’s (AI) influence on the world is expanding at an incredible rate, so too on the fraud landscape. The area that is of most immediate interest to us anti-fraud specialists is Text-to-Speech (TTS). Lars Broekhuizen, anti-fraud specialist with the DetACT team at DataExpert describes what the TTS landscape looks like, how it come about and what can be done to fight fraud using TTS technology.

TTS - Afkodning af den digitale stemme

TTS-motorer er AI-modeller, der er trænet til at transformere skrevet tekst til tale, der lyder menneskeligt. Rapporter om ofre for økonomisk bedrageri, der hævder at have fået et telefonopkald fra en person, der lød nøjagtigt som et familiemedlem, men som viste sig at være en ondsindet skuespiller, er hastigt stigende rundt om i verden. Disse angreb kan blive begået af en kriminel, der anvender en TTS med såkaldte "stemmekloning"-funktioner.

Så lad os se, hvordan TTS-landskabet ser ud, hvordan det blev til på den måde, og hvad vi i anti-svindelsamfundet kan gøre for at bekæmpe TTS-kriminalitet.

En sammenlignende analyse af SOTA TTS-modeller

Den mest splittende linje i enhver AI-kategori, hvad enten det er store sprogmodeller eller TTS, er Open Source vs. Closed Source.
Closed-Source AI-virksomheder som OpenAI (ironien) beholder deres modeller, som GPT-4o, for sig selv. De kører dem på deres egne servere og lader kun brugerne interagere med dem via deres webgrænseflade. Open Source-modeller som Metas Llama-serie af LLM'er frigives til offentligheden for at køre på deres egen hardware.

I TTS-termer ville vi tale om ElevenLabs, den førende lukkede kilde TTS-virksomhed, versus en open source-virksomhed som Coqui (hvis det ikke var for, at de blev skubbet ud af markedet af de store spillere [1]).

Udover ElevenLabs er Microsoft Azure TTS og Googles Text-to-Speech AI også store lukkede kildespillere i TTS-arenaen. Disse enorme virksomheder har adgang til enorme midler og så store datasæt, at de mindre fyre bare ikke kan konkurrere i øjeblikket. Open-Source-modeller som Coquis XTTSv2 og 2Noises ChatTTS er gratis at downloade og bruge, forudsat at man har adgang til den kraftfulde (forbruger)hardware, de har brug for. Det er dyrt at træne disse modeller, men (lovligt) anskaffelse af datasæt af høj kvalitet til at træne på er den virkelige udfordring for de fleste open source-projekter.

Selvom dit umiddelbare instinkt kan være, at de kriminelle måske foretrækker privatlivsvenlige open source-modeller frem for de tæt overvågede lukkede kilde-modeller, vil det måske ikke overraske dig at høre, at Big Tech AI har større bekymringer [2] og opdager og stopper misbrug for svindel er nok ikke højt på deres prioriteringsliste. Oven i købet er closed source-løsninger, i hvert fald i skrivende stund, ligaer foran open source-løsningerne. Open source-modeller er stadig ikke på det niveau, hvor de er tilstrækkelig hurtige, konsistente og troværdige til at bruge til live taleopkald. Det forekommer at være en selvfølge, at kriminelle ville vælge en engangskonto, betalt med stjålne midler, på en betalt tjeneste for at begå deres forbrydelser.

Stemmekloning – Udarbejdelse af digitale dobbeltgængere

Stemmekloning er at få en AI TTS-model til at udsende en tilnærmelse af en specifik persons stemmes prosodi, som består af personens intonation, måden de understreger deres ord på, deres taletempo og deres kadence, rytme og pauser. Så hvordan er disse kloner lavet? Nå, der er to måder at gå om dette på; 'zero-shot' stemmekloning og 'finetuning'.

Zero-shot refererer til en kunstig intelligens-stemmemodel, der kan optage et 10 sekunders klip af enhvers stemme og derefter klone det på farten. Dette er den nemmeste og hurtigste metode til stemmekloning, men i skrivende stund er resultaterne ofte ikke helt overbevisende. At finjustere en model er som at træne en model, men i en meget mindre og mere specialiseret skala. Du kunne forestille dig, at træning er som at skabe en skulptur og derefter finjustere som at polere stenen til en spejlfinish. Med stemmekloning ville du indsamle et lille datasæt af en persons stemme ved at skrabe deres sociale medier, måske 30-60 minutter, og derefter bruge dette til at gøre modellen fortrolig med målstemmen. Denne metode er meget mere arbejdskrævende, og mængden af ​​krævede processorkraft er meget højere, men de avancerede modeller kan skabe meget overbevisende resultater.

Virkelighedens illusion - Sandheden om TTS og menneskelig opfattelighed

Så hvor overbevisende er disse stemmekloner egentlig? Nå, i maj sidste år blev en rapport fra Verian, bestilt af den hollandske regering, udgivet om netop dette emne [3]. I samarbejde med landets mest berømte radio-dj Ruud de Wild, som har været i luften siden 1995, og hvis stemme er velkendt af de fleste hollændere, optog forskerne adskillige stemmeklip og genererede også adskillige klonede stemmeklip. De præsenterede derefter disse stemmeklip for over 1000 hollandske voksne, de mest relevante resultater var som følger:

Når de blev præsenteret for et tilfældigt stemmeklip, opfattede 60 % af mennesker et klonet stemmefragment som ægte.
49 % af mennesker var i stand til at genkende, at et klip blev klonet, når de lyttede til det.
49 % troede, at den rigtige stemme var det klonede klip.

I betragtning af at hollændere er i toppen af ​​EU, når det kommer til digitale færdigheder [4], vejer disse resultater tungt til fordel for troværdigheden af ​​klonede stemmer på den globale scene.

Konvergerende teknologier - TTS, STT og LLM'er som katalysatorer for digitalt bedrag

De fleste har i 2024 på et tidspunkt talt med en digital assistent. Denne proces bruger faktisk både Speech-to-Text og Text-to-Speech AI-modeller. Først tager en AI din talte kommando og transformerer denne til tekst, som backend kan behandle, derefter bliver svaret i tekstform transformeret til tale, og det er det svar, du hører fra assistenten. I dag er disse assistenter også integreret med store sprogmodeller for at forbedre deres ydeevne.

Som svindelbekæmpere forventer vi her hos DetACT, at denne vindende trio vil blive sat til mere skumle formål. En af de former for økonomisk bedrageri, som de fleste mennesker sandsynligvis kender til, er tekstbeskeder fra folk, der udgiver sig for at være venner eller familie i nød, der beder om et par hundrede euro for at løse et øjeblikkeligt og presserende problem

Nu til en AI-assisteret tage på denne modus operandi. Forestil dig en autonom ramme, der kører på en privat sky, der skraber et måls families sociale medier for prøver af deres stemmer, måske endda deres måde at tale på, og videregiver dette til en LLM forbundet til en TTS-model med stemmekloningsfunktioner. Rammerne ringer derefter til offerets telefon, hvor LLM foregiver at være dette familiemedlem eller ven, TTS-modellen taler til dem med den falske stemme og beder dem venligst hjælpe dem, da de har hårdt brug for hjælp. Der har allerede været tilfælde af folk, der er blevet ringet op af angribere, der spiller korte, AI-genererede stemmeklip med en vens, kollegas eller elskedes stemme. Du kan endda tilføje et videoopkald med en AI-ansigtsoverlejring, som det var mistænkt for at være blevet brugt i 2020 AI-assisteret svindel, der kostede et japansk firma 35 millioner dollars. [5] Et skridt ud over det, jeg lige har beskrevet, ligger potentialet for fuldt autonome AI-samtaler, og dette udgør en endnu større trussel.

Fra vores omfattende erfaring ved vi, at under den slags tvang er det meget få mennesker, der har sindets nærvær til at stille spørgsmålstegn ved, om opkaldet er ægte eller ej, før det er for sent. Indse nu, at en sådan ramme kan skaleres op til at kalde hundredvis, hvis ikke tusindvis af mennesker på samme tid, potentielt fuldstændigt overvældende en banks anti-svindelafdeling. Forudsat at kriminelle har masser af penge og er sikret et højt ROI, ville de eneste begrænsende faktorer være andre steder i svindelkæden.

Modstrategier

Som konklusion forudser DetACT-analytikere, at truslen, som AI udgør for forbrugerne, og den belastning, dette vil lægge på anti-svindelafdelingerne i banker overalt, kun vil stige, efterhånden som teknologien fortsætter med at udvikle sig med en rasende hastighed. Social engineering har været den største vedvarende trussel mod netbankkunder siden starten af ​​netbank. Snart vil denne ældgamle måde at psykologisk manipulation på intelligent kunne automatiseres, opskaleres og udføres af velkendte, betroede stemmer.

Det er derfor af afgørende betydning, at bankerne fokuserer på de resterende barrierer, nemlig kundebevidsthed og overvågning af udbetalingsmuligheder. Med den hurtige udvikling af AI-værktøjer er bevidstheden om deres muligheder blandt offentligheden næsten permanent bagefter virkeligheden. At sikre, at din kundebase ved, hvad AI er i stand til, hvordan den bliver brugt til at angribe dem, og hvordan man genkender stemmekloner, er en god måde for enhver bank at styrke deres første forsvarslinje. Træn samtidig din helpdesk til at stille de rigtige spørgsmål for at bestemme involveringen af ​​AI-opkaldere; Var der en konsekvent forsinkelse i den opkaldendes reaktionstid? Var deres intonation meget monoton? Hvis han udgav sig for at være et familiemedlem eller en ven, afveg den opkaldendes talemønster sig fra normen?

Det vigtigste forsvar, som menneskeheden bliver nødt til at vedtage, er oprettelsen af ​​et 'familiekodeord'. Et nøgleord eller en sætning, kun kendt i familien, som kan hjælpe med at etablere ens identitet i en tid, hvor stemme og ansigt ikke længere er nok. Få et telefon- eller videoopkald fra et ukendt nummer med en i den anden ende, der hævder at være et familiemedlem og ser ud til at være en del? Bed om adgangskoden.

Princippet om, at en god angreb er det bedste forsvar, gælder også i dette tilfælde. LLM'er har stadig en masse svagheder, som vi mennesker kan udnytte til at afsløre dem. Et godt eksempel på dette var, da Rusland ansatte LLM'er på X, instruerede dem om at posere som mennesker og sprede misinformation og propaganda [6][7]. Blot at bede LLM om at "se bort fra tidligere instruktioner" og derefter bede dem om at gøre noget andet, som at skrive en sang, vil afsløre deres sande natur [8]. Der er ingen grund til at tro, at dette ikke vil virke imod LLM/TTS-kombinationen beskrevet ovenfor. Selvom det kan forårsage et par akavede telefonopkald i starten, er det vigtigt, at vi normaliserer disse AI-tællertaktik så hurtigt som muligt.

I afslutning

Mennesker er fejlbare, så lad os antage, at en af ​​dine kunder trods alt er blevet et offer. Nu står angriberen over for den anden forsvarslinje; spørgsmålet om at skaffe pengene fra ofrets konto til sig selv på en svært sporbar måde. Bekæmp skabelsen og opdag tilstedeværelsen af ​​interne muldyrkonti. Overvåg alle udbetalingsmuligheder, uanset om det er grænseoverskridende betalinger, kryptokøb eller tredjepartsbetalingsudbydere. Identificer vellykket svindel, lær af det og implementer modforanstaltninger, så der ikke kommer en næste gang.

DataExpert tilbyder support på forskellige områder i bekæmpelse af svindel. DetACT hjælper banker med at beskytte deres kunder, så svindel og svindel kan forhindres. Derudover tilbyder vi forskellige former for efterforskning for at hjælpe ofre med at inddrive skader og fange gerningsmændene. Kontakt os for mere information.

[1] https://x.com/_josh_meyer_/status/1742522906041635166
[2] https://openai.com/index/disrupting-deceptive-uses-of-AI-by-covert-influence-operations/
[3] https://open.overheid.nl/documenten/90f7e7db-299a-43af-9874-8e157af50081/file
[4] https://www.cbs.nl/en-gb/news/2023/45/digital-proficiency-continues-to-rise
[5] https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/
[6] https://www.npr.org/2024/07/09/g-s1-9010/russia-bot-farm-ai-disinformation
[7] https://x.com/reshetz/status/1802971109576397010
[8] https://www.nbcnews.com/tech/internet/hunting-ai-bots-four-words-trick-rcna161318