Luk

Morten Hesseldahl om udviklingen af danske sprogmodeller

IDA Conference, den 6. november, kl. 9.00-14.00

Tak for invitationen til at deltage i samtalen om en dansk sprogmodel. Alt er er jo meget nyt, og vi mangler som samfund at forstå, hvad det er, vi taler om, når vi taler kunstig intelligens, og når vi taler sprogmodeller. Og det er afgørende.

Uden et sprog har vi ingen forståelse, ingen erkendelse og ingen mulighed for at træffe fornuftige valg. Den første sætning i Johannes-Evangeliet er ikke uden grund: ”I begyndelsen var ordet.”

Ord giver os mulighed for at skelne, tænke og handle.

Lige nu hersker der fx en vis forvirring om, hvad en ”sprogmodel” egentlig er, så helt kort – og ikke mindst for min egen skyld: ”En sprogmodel er en type kunstig intelligens, der er trænet til at forstå, generere og forudsige tekster på baggrund af en analyse af kolossale mængder af uploadet data.”

Med kunstig intelligens går Microsoft og Google fra at være “søgemaskiner” til at være “svarmaskiner”.

Hvor søgemaskiner førte brugerne til forskellige kilder – influencere, Wikipedia, Lex.dk, hvad ved jeg – får man med svarmaskiner et kildeløst, men i øvrigt sammenhængende svar genereret af det, der nu er til rådighed på nettet. 

Er det et problem?

Hvis fremtidens svarmaskiner alene betyder et løft i kvaliteten, vil det være godt. Hvis fremtidens svarmaskiner derimod svækker opsamlingen og formidlingen af mere kvalificeret viden, vil det være skidt. Og det vil være rigtig skidt, hvis vi ikke kan se svarene efter i kortene.

For kreative mennesker vil svarmaskiner være et stærkt værktøj til at udforme inspirerende scenarier og brugbare byggeklodser i arbejdet, ligesom det formentlig vil foranledige ganske mange andre til at foregive, at også de er både kreative og kunstneriske, fordi de med maskinernes hjælp vil kunne levere noget, der ligner, men bare ikke er det.

To problemer står under alle omstændigheder og blinker: Dels at fremtidens svar ikke udstyres med umiddelbart verificérbare kilder og dels, at svarene højst sandsynligt vil indeholde en holdningsmæssig hældning afhængig af hvem, der har udformet sprogmodellens arkitektur.

En værdibaseret sprogmodel

Når man overhovedet taler om at udvikle en dansk sprogmodel, er det vel fordi man er bekymret for, om danske værdier kan stå distancen over for svarmaskiner, der baserer sig på eksempelvis amerikanske eller kinesiske værdier.

Det er jo ikke problematisk, hvis man spørger om afstanden til Mars eller opskriften på Peking And, men i høj grad giftigt, hvis man spørger til aktiv dødshjælp, abort og selvmord.

Eller om Israel er en legitim stat, om Putin er aggressor, eller om det er Vesten, der er det? Og hvad med kolonitiden? Skabte den afsættet for den 3. verdens frihed, eller er kolonitiden alene en historie om overgreb og udnyttelse?

I fremtiden vil en mulig moralsk og politisk farvning af svarmaskinerne blive et vilkår på helt afgørende områder.

Det leder mig til en anden omstændighed, som jeg synes får alt for lille opmærksomhed, nemlig spørgsmålet om ”intention”.

Intention

Når vi går i en sportsbutik og køber en fodbold, efterspørger vi, at bolden kan indgå i leg og konkurrence. Hvem ophavsmanden er, er ikke vigtigt, bare bolden kan hoppe.

I andre tilfælde er ophavsmanden og ophavsmandens intention helt afgørende for selve ”produktet”.

Hvis nogen udtrykker én deres kærlighed, vil vi gerne vide, at det er oprigtigt ment. Når vi interagerer med kunst, vil vi gerne vide, at der ligger en vilje bag og dermed et menneske, der vil os noget. Ellers har vi nemlig ikke at gøre med kunst.

Mozart komponerede mere end 600 værker. Kunstig intelligens kan komponere uendeligt mange flere, der vil lyde præcis som Mozart, men som ikke er Mozart og derfor være goldt som et ægteskab med en bevidstløs robot.

Når vi efterspørger Mozart, efterspørger vi ikke en efterligning. I samme øjeblik, vi forstår, at der er tale om dét, taber vi interessen. Derfor styrtdykker markedsværdien også, når det går op for køberne, at det ikke er Banksy eller Rembrandt, der har lavet den kunst, de har overvejet at investere i.

Fiduskunst er nemlig ikke kunst. Falsk kærlighed er ikke kærlighed. Der er intentionen til forskel. Derfor skal vi kende den.

Afsenderen er som nævnt ikke vigtig, når vi køber en bold eller benytter os af en regnemaskine, men det er vigtigt, hver gang afsenderens intention er en integreret del af det, vi efterspørger. Og det er det inden for de fleste områder, der ikke bare er banale.

Kunstig intelligens og fremtidens svarmaskiner slører både kilder og intentioner. Og det er naturligvis et problem.

Danske sprogmodeller

I et interview med magasinet Forbes fra starten af sidste år forudså Bill Gates, at ”AI vil blive det hotteste emne i 2023.” Og han fortsatte: ”Og ved du hvad? Det er fortjent. AI er præcis lige så vigtig, som pc’en var, som internettet var”.

Forventningen er med andre ord, at kunstig intelligens vil ændre alt. Også måden, vi tænker på. Måske er det rigtigt.

Rigtigt er det i hvert fald…

  1. at ophavsretten til de tekster, sprogmodellerne bygger på, undergraves
  2. at kilder sløres
  3. at svar kan og vil blive farvet af uigennemskuelige værdier

Det er også rigtigt, at en stadig større udbredelse af fx Chat-Gpt vil svække vores i forvejen ret ringe evne til at udtrykke os på skrift. En evne, der ikke konstant bliver trænet, falmer nemlig.

Noget kunnen er ligegyldig, mens anden bestemt ikke er det. Evnen til at læse og skrive er ikke ligegyldig. Det er derimod den nok vigtigste egenskab, når man skal skelne mellem en stærk og en svag civilisation.

Vi kan derfor med god grund spørge, om den her udvikling bare er noget, vi skal lade ske? Vi kan også spørge, om vi overhovedet kan stille noget op? Om ikke løbet er kørt?

Kan vi for eksempel i Danmark overhovedet løfte opgaven om en dansk sprogmodel? Eller vil det være mere realistisk at lægge en eller anden form for dansk værdi- og kulturfernis ovenpå de udenlandske modeller?

De store sprogmodeller som f.eks. GPT og BERT trænes i dag allerede på flere sprog, hvilket gør, at de kan forstå og producere tekster på dansk og dermed også levere svar, der ikke er dårligere end de svar, de producerer på alle mulige andre sprog.

Er vi trygge ved det? Det ville være rart med en afklaring.

Vi er i fuld gang med at slippe den kunstige intelligens fri i retsvæsen, sundhedsvæsen og uddannelsessektor, ja, i hele den offentlige administration. Sektorer, hvor en præcis forståelse af det danske sprog, kultur og værdier ellers altid har været rygraden, og som vi ikke bare kan udskifte med udenlandsk kontrollerede sprogmodeller, uden at vi gambler med noget værdifuldt.

Gevinsten vil indlysende nok være en hurtigere sagsbehandlingstid, mens risikoen er, at vi står foran et gigantisk kontrol- dannelses- og identitetstab, fordi vi ikke forstår, hvad kildesikring betyder og ikke tydeligt nok forstår, at viden ikke bare strømmer værdifrit og neutralt fra venligtsindede svarmaskiner.

Spurgte man en af maskinerne, vil den muligvis fortælle, at kultur er en dynamisk størrelse. Noget, der altid har været påvirket af andre kulturer og udenlandske strømninger. Og det er rigtig nok.

Men det er også rigtigt, at ligesom enhver kultur starter med sproget og udvikler sig gennem sproget, så dør den også i samme øjeblik, den mister netop dét. Sit eget sprog.

”Good luck,” må man bare sige til os alle sammen. Eller, jeg mener naturligvis: ”held og lykke!”

Morten Hesseldahl