Luk

ADD blogpost: AI-evalueringsmetrikker rummer problematiske fejl, der nu findes en løsning på

ADD-projektets forskere dykker i denne blogpost ned i AI-evalueringsmetrikkernes betydning, nyopdagede fejl og løsningerne på dem.

ADD-bloggen giver et indblik i ADD-projektets forskning på tværs af de seks universitetspartnere. Mød vores forskere fra Aalborg Universitet, Aarhus Universitet, Copenhagen Business School, Roskilde Universitet, Københavns Universitet og Syddansk Universitet. Læs om deres projekter, aktiviteter, idéer og tanker – og få et nyt perspektiv på de kontroverser og dilemmaer, vi står overfor i digitaliseringens tidsalder, og ideer til, hvordan vi kan arbejde for at styrke det digitale demokrati.

Af Professor og Co-forskningsleder på ADD-projektet Christina Lioma, adjunkt Maria Maistro og Ph.d.-studerende Theresia Veronika Rampisela, Institut for Datalogi på KU

Hvordan beregner man vægten af et objekt? En let måde er et benytte en vægt. For det meste forventer vi, at vægtenheder kommer præ-kalibreret således, at de virker efter hensigten og giver en præcis aflæsning af vægten. Men hvad nu, hvis de ikke gør?

Forestil dig, at en ny vægt er blevet udviklet og benyttes i stigende grad i supermarkederne. Hvad hvis de enkelte vægte ikke er blevet kalibreret eller testet før ibrugtagning? Hvordan ville du have det med at købe fødevarer som a prissat efter vægt, og du betaler mere for fødevarerne grundet fejl i skalaen, der resulterer i en tungere vægt end den reelle vægt af fødevaren? Du vil nok føle dig snydt, når du finder ud af, at du har betalt for meget for fødevarerne end det, du reelt burde have betalt. Ligesom en forretningsmand, der sælger genstande på vægt, en fejlagtig vægt kunne også betyde at forretningsmanden ville miste penge, hvis vægtenheden var lavere end den reelle vægt for genstanden. I begge tilfælde medfører vægtenhedens fejl negative konsekvenser for dens brugere. Dette kunne være undgået, hvis vægtenheden var blevet ordentligt tjekket for defekter.

Hvis du følger vægtenhedens analogi, kan man sige, at dataloger på samme måde benytter forskellige skalaer, mere bekendt som ’evalueringsmetrikker’, til direkte at evaluere output fra Artificielle Intelligente (AI) modeller. Der findes mange AI evalueringsmetrikker. Nogle metrikker beregner hvor præcis eller hvor hurtig en model er, mens andre metrikker kvantificerer forskellige aspekter relateret til ansvarlig AI som for eksempel retfærdighed. Hvor nogle retfærdighedsmetrikker har været brugt i næsten et årti, er det først for nyligt, at forskere har fået afdækket seriøse fejl i selve evalueringsmetrikkerne og måden, hvorpå de er blevet benyttet. Nedenfor har vi givet et resumé af tre af de mest bekymrende fejl og beskrevet, hvad vi kan gøre ved disse fejl.

Hvad er problemet med AI retfærdighed for den ordinære person, og hvorfor har det betydning?
 
Forestil dig, at du ansøger om et job, hvor der bliver brugt en online ansættelsesplatform. Ansættelsesudvalget benytter måske en indbygget AI model i platformen til at finde de bedste kandidater for jobbet. Hvis modellen så er konstrueret sådan, at den ikke er retfærdig i bedømmelsen af kandidater, vil modellen måske rangere mandlige kandidater over kandidater med et andet køn i et historisk mandsdomineret område, som for eksempel software ingeniører. Dette kunne betyde at f.eks. kvindelige kandidater, der er ligeså kvalificeret som de toprangerede mandlige kandidater vil have en mindre chance for at blive udvalgt til næste fase af ansættelsesprocessen, hvilket direkte vil påvirke deres ansættelsesmulighed og muligvis have store konsekvenser for deres levevilkår.

Fejl 1: En alt for simplificeret evalueringsopsætning, der ikke afspejler kompleksiteten af den virkelige verden

AI-fairness i datalogisk forskning evalueres ofte på gruppe- eller individniveau. Fairness på gruppeniveau sikrer typisk, at når individer inddeles i forskellige grupper baseret på en fælles lighed, f.eks. deres sociodemografiske identitet, modtager de forskellige grupper et fair udfald. For eksempel vil brugere med forskellige sociodemografiske baggrunde modtage lige gode forslag til stillinger fra en AI applikation. Individuel fairness sikrer derimod, at alle modtager et retfærdigt udfald. I eksemplet med jobanbefalinger vil dette betyde, at alle burde få lige gode anbefalinger til stillinger uanset deres sociodemografiske baggrund. Det meste forskning har kun fokuseret på gruppe fairness, hvor langt færre studier har fokuseret på individuel fairness. Evaluering af gruppe fairness kræver personligt demografiske oplysninger om AI-brugerne, hvilke ofte er ufuldstændige eller utilgængelige. For eksempel vil der kun være information om brugernes seneste uddannelsesniveau, mens køn og etnicitet er ukendt. Derfor kan fairness kun evalueres for brugere på tværs af forskellige uddannelsesniveauer, hvilket resulterer i unfairness mellem andre sociodemografiske grupper baseret på f.eks. køn eller etnicitet, hvor disse ikke vil blive inkluderet i AI-modellen.

Derudover negligerer denne type evalueringsopsætning intersektionalitet af individers identitet ved at reducere det til én enkelt variabel, hvilket kan skjule unfairness i intersektionelle grupper (f.eks. baseret på både køn og etnicitet). Med andre ord, bliver evaluering af fairness for simplificeret, da modellen ikke fanger krydsfeltet af sociodemografiske karakteristika, der findes i den virkelige verden. For at gøre det endnu mere komplekst, så bliver gruppe og individuel fairness evalueret med forskellige metrikker. Forskellige metrikker kan have forskellig følsomhed: den samme ændring i fairness niveau kan øge eller mindske to metrikværdier forskelligt.  Resultatet er, at metrikværdier ikke er direkte sammenlignelige, hvilket gør det vanskeligt at forstå hvilken effekt en forbedring i gruppe fairness kan have på individuel fairness og omvendt.

Hvad er problemet for enkeltpersoner, og hvorfor er det vigtigt?

Hvis AI modeller kun optimeres ud fra en specifik form for fairness, f.eks. for grupper med én bestemt måde at danne grupper på, kan AI modellerne stadig være unfair i forhold til andre marginaliserede, intersektionelle grupper eller individer. Det betyder, at modellerne gennemsnitligt kan præstere lige godt for to grupper af personer, men enkeltpersoner kan, bevidst eller ubevidst, tilhøre en mindre del af gruppen, som modellen præsterer dårligt for. Dette er problematisk, fordi AI modeller ideelt set burde præstere lige godt for alle.

Hvordan har vi løst dette problem i vores arbejde?

I forskningsgruppen har vi eksperimenteret med flere store sprogmodeller (LLMs) til at anbefale relevante jobtitler til jobsøgere. Ved hjælp af Gini indekset har vi evalueret på den samlede individuelle fairness, fairness indenfor grupper af jobansøgere og fairness mellem forskellige grupper af jobansøgere. Grupperne er baseret på jobansøgernes seneste uddannelsesniveau, antal års joberfaring, deres studieretning, og en kombination af disse. Vi fandt frem til to interessante resultater. Først, at anbefalingen kan være meget fair for forskellige grupper af jobansøgere, men meget unfair for individer indenfor hver grupper og samlet set. Det betyder, at selvom kvaliteten af anbefalingen varierer forholdsvist lidt mellem jobansøgningsgrupper, varierer kvaliteten meget taget alle jobansøgere i betragtning. Dette understreger vigtigheden af at evaluere fairness på både gruppe- og individniveau.  For det andet har vi vist, at de samme anbefalinger, der er relativ fair for jobansøgere, når de er grupperet ud fra én enkelt variabel, bliver langt mere unfair, når intersektionaliteten tages i betragtning. Med andre ord, er en overforsimplet evalueringsopsætning ikke tilstrækkelig til at give et komplet billede af fairness, specielt når andre former for unfairness forekommer.

Hvordan kan praktikere bruge vores løsning?

For sammenlignelig evaluering af gruppe og individ fairness kan praktikere måle begge dele med de samme metrikker, som vi har gjort. Desuden bør praktikere, når de evaluerer gruppe fairness, tage højde for intersektionaliteten i individers identitet, da unfairness over for minoritets- eller intersektionelle grupper kan forblive uopdaget.

Hvor kan jeg finde mere information om dette?

Du kan få et kort overblik over forskningen via vores online plakat her og læse artiklen her. Vi stiller også de præcise formuleringer af metrikkerne samt koden til at beregne dem til rådighed her.

Figur 1: Figuren refererer til jobanbefalingsopgaven (JobRec). Kolonnerne repræsenterer forskellige måder at gruppere brugere efter attributter: uddannelsesgrad, års joberfaring og studieretning. For eksempel ”grad-studieretning” betyder at grupper er formet af brugere med samme grad og studieretning. Søjlerne repræsenterer unfairness værdien for forskelle i anbefalingseffektivitet målt ud fra Gini Indekset, hvor en lavere Gini betyder mere fair. Figuren viser, at unfairness grupper imellem (de blå søjler), har en tendens til at være meget lav, hvilket betyder, at anbefalingsmodellerne anses for at være fair, specielt når grupperne er formet med 1 eller 2 attributter. På den anden side, er unfairness inden for grupper (orange søjler) og individuel fairness (den stiplede linje) højere. Dette betyder, at den samme anbefalingsmodel anses for at være unfair, når man ser på alle individer og individer inden for samme gruppe. Figuren er modificeret fra Rampisela et al. (2025b).

Fejl 2: Den minimale og maksimale værdi for nogle evalueringsmetrikker er ukendt

Antag nu, at en lavere metrik-værdi der er tæt på nul betyder bedre fairness, f.eks. nul unfairness. Med kun denne information er det ikke muligt at vurdere, om en værdi på 0.3 er godt. Hvis den maksimale mulige værdi er 1, så kan vi argumentere for at 0.3 er tættere på 0 end på 1 og dermed kan 0.3 tolkes som en nogenlunde værdi. På den anden side, hvis den maksimale værdi i stedet er 0.5, så vil 0.3 være tættere på den værst mulige værdi, og vil dermed ikke tolkes som en god værdi. Hvis man ikke kender maksimum og minimum af en metrik, kan en værdi ikke tolkes let. I nogle tilfælde kan uvidenhed om maksimum og minimumsværdier vildlede sammenligninger mellem AI-modeller.

Hvad er problemet for den almindelige dansker og hvorfor er det vigtigt?

Almindelige personer vil måske gerne vide, hvilken AI-model, der er mest fair. Selv hvis man kender fairnessværdierne for mange AI-modeller, kan denne information ikke direkte blive brugt til at finde den bedste model i forhold til at være mest fair, hvis minimums- og maksimumværdierne varierer fra model til model. Derfor er det svært for offentligheden og almindelige danskere at bedømme, hvor fair en AI-model er sammenlignet med en anden model.

Hvad forårsager dette problem beregningsmæssigt?

For nogle fairness-metrikker varierer maksimum og minimumværdierne afhængigt af hvilken AI-model, der benyttes, og værdierne kan ikke udledes ud fra metrik-ligningen. Lad os antage, at for én model er fairnessværdierne i intervallet 0-1 og for en anden model er de fra 0.5-1. Jo lavere værdi, jo bedre er fairness-modellen. I dette eksempel vil den første model blive betragtet som mest fair, også selvom det ikke er tilfældet. Grunden til det er, at model 1 er evalueret ud fra en anden skala, som har lavere minimumsværdier. Med andre ord; værdierne af de to AI-modeller er ikke sammenlignelige, fordi de ligger i forskellige intervaller.

Hvordan har vi løst det problem i vores arbejde?

Det har vi gjort ved at modificere inputtet i metrikken således, at vi sikrer, at metrikken beregnes med referencedata som er uafhængig af den enkelte AI-model, ved alle AI-modellerne vi sammenligner. Et eksempel på reference-data i anbefalingsopgaver kan være brugerpræferencedata, som indikerer om en bruger kan lide den anbefaling, de har fået. Da alle modeller beregnes ud fra samme reference-data, bliver sammenligning på tværs af modeller muligt.

Hvordan kan praktikere bruge vores løsning?

For korrekt sammenligning på tværs af modeller kan praktikere overveje at adaptere vores evalueringsmetode med model-afhængige referencedata, især når to eller flere AI-modeller sammenlignes. Med vores viden kan praktikere være opmærksomme på hvilke metrikker, der har ukendte minimums- og maksimumværdier. Når disse metrikker anvendes, bør modeller ikke beskrives med forstærkende ord som ”meget”. For eksempel er det ikke passende at sige, at en fairnessværdi på 0.3 er ”meget god”, hvis man ikke ved, om den ligger tættere på den bedste eller værste mulige værdi.

Hvor kan jeg finde mere information om dette?

Du kan læse vores open access artikel her og finde metrikkerne her.

Fejl 3: Nogle metrikker kan ikke nå deres minimums- eller maksimumsværdi

Selvom nogle metrikker i teorien ligger mellem 0 og 1, kan deres værdier i praksis ikke altid nå disse værdier, hvilket afhænger af både datasættets størrelse og andre variabler såsom AI-konfiguration. Antag at en lavere værdi er bedre betydende, at modellen er mere fair, men de opnåelige minimums- og maksimumsværdier er henholdsvis 0.3 og 0.6 i stedet for 0 og 1.

Hvad er problemet for den gennemsnitlige dansker og hvorfor er det vigtigt?

Ikke at kende de opnåelige værdier for værst og bedst mulige værdier kan lede til to problemer: For det første; en model med en værdi på 0.5 kan umiddelbart virke acceptabel for en gennemsnitlig dansker, når man tænker på intervallet 0-1. Man kunne tolke værdien på 0.5 som nogenlunde fair, men hvis man ved, at de opnåelige værdier faktisk ligger mellem 0.3 og 0.6, fremstår en værdi på 0.5 langt dårligere, da 0.5 nu er tættere på den værst mulige værdi. Sådanne værdier kan derfor vildlede og påvirke vores fortolkning af, hvor fair en model er.

For det andet kan en model med en værdi på 0.3 give anledning til at forsøge at finde en endnu bedre model, selvom dette i praksis er umuligt. Uden kendskab til den opnåelige minimumsværdi kan man derfor bruge ressourcer forgæves på at lede efter en model med en bedre værdi, selvom ingen AI-model kan opnå en værdi på under 0.3.

Hvad forårsager dette problem beregningsmæssigt?

Problemet opstår, fordi nogle metrikker er formuleret baseret på ideer eller antagelser, der ikke matcher 1:1 med virkelige data eller almindelige evalueringsopsætninger. For eksempel kan Gini-indekset anvendes til at måle unfairness i anbefalinger, men værdien kan kun nå 1 (den mest unfair værdi), hvis der kun anbefales ét enkelt element til alle. Dette er et urealistisk scenarie, da brugere altid får en anbefalet et fast antal elementer, typisk 10. På grund af denne type misforhold kan metrikkerne ikke nå deres minimums- eller maksimumsværdi.

Hvordan har vi løst det problem i vores arbejde?

For nogle metrikker har vi korrigeret deres værdi ved at skabe en mapping, der genskalerer deres interval til at ligge mellem 0 og 1 således, at de teoretiske minimums- og maksimumsværdier kan nås af modellerne. På den måde vil en værdi på 0 nu korrekt betyde det bedst mulige udfald, mens en værdi på 1 vil betyde det værst mulige udfald. Når det er sagt, så er det ikke altid let at lave sådan en mapping, specielt når metrikligningen har mange variabler. I nogle tilfælde er det ikke muligt at kende hvilken type af modeloutput resultater, der resulterer i den bedst eller værst mulige værdi.

Hvordan kan praktikere bruge vores løsning?

Praktikere kan direkte benytte vores korrigerede metrikker i samme evalueringsopsætning, som vi har benyttet. Hvis evalueringsopsætningen er anderledes, opfordrer vi praktikere til at overveje at anvende lignende idéer til at genskalere metrikkerne, når det er nødvendigt.

Hvor kan jeg finde mere information om dette?

Du kan se vores plakat, som opsummerer problemstillingen og løsningen her, du kan se vores optagede præsentation på Youtube (på engelsk) eller lytte til denne podcast (på indonesisk). De korrigerede metrikker kan du finde her. Vores open-access artikel kan læses her.

Figur 2: Unfairness-metrikkers værdier for kunstige anbefalinger med syntetiske data, før og efter de er korrigeret til at mappe den mest fair anbefaling til 0 og den mest unfair til 1. Linjerne i figuren er forskellige fairness beregninger: Inequity of Amortized Attention (IAA) og Individual-user-to-individual-item fairness (II-F). For begge beregninger gælder der, at jo lavere des bedre betydende, at jo tættere på værdien 0, desto mere fair er modellen. I dette eksperiment har vi genereret kunstige anbefalingslister med et stigende antal fair elementer. Vi ville forvente, at begge beregnede værdier vil starte med den værst mulige værdi tæt på 1, og derefter gradvist forbedres og efterhånden som flere fair elementer tilføjedes (fra venstre mod højre på x-aksen). Figur 2 (venstre) viser imidlertid, at begge mål ikke er særligt følsomme over for ændringer, så tilføjelse af fair elementer medfører kun ubetydelige ændringer i værdierne (bemærk, at y-aksens skalaer er forskellige i de to figurer). Derudover kan vi se, at begge beregningsværdier allerede er meget tæt på 0 på den venstre side af x-aksen. Dette betyder, at selvom anbefalingslisten indeholder en hovedvægt af unfair elementer, er beregningsværdien allerede tæt på det perfekte fair scenarie. Hvis man udelukkende betragter disse lave værdier, kan man fejlagtigt konkludere, at anbefalingerne er fair selv i ekstreme unfair tilfælde. Figur 2 (højre) viser vores genskalerede version af målene. Her opfører begge mål sig som forventet: de starter ved den mest unfair værdi på 1 og når den mest fair værdi på 0 i takt med at flere fair elementer tilføjes. Modificeret af Rampisela et al. (2025a).
Vores Guidelines
 
1. Evaluer både gruppe- og individuel fairness. En anbefalingsmodel kan være fair for en gruppe, men samtidig være meget unfair for individer i gruppen. For eksempel kan en anbefalingsmodel være fair på tværs af køn, men hvis man fokuserer på en bestemt kønsgruppe, f.eks. kvinder, vil modellen stadig diskriminere mod kvindelige brugere baseret på deres etnicitet.
 
2. Brug vores korrigerede evalueringsberegninger af absolut fairness. Det vil sige, at man skal evaluere fairness af anbefalingsmodeller i isolation for at bestemme hvor fair en model er og hvor langt fra modellen er for at være en perfekt fair model.
 
3. Vær forsigtig ved fortolkning af beregningsværdier. Nogle beregninger har en skæv fordeling således, at de har en tendens til at returnere værdier som er meget tæt på det perfekte fair scenarie. Når det er sagt, betyder det ikke at modellerne er næsten perfekte fair og konsekvensen kan være overvurdering af fairness.

Ovenstående liste over fejl er ikke udtømmende; andre evalueringsmetrikker for AI kan lide af andre lige væsentlige problematikker. Som følge af disse fejl kan metrikker være forvirrende at tolke og i nogle tilfælde kan de slet ikke beregnes. Mens nogle fejl let kan afhjælpes, er andre fejl mere komplekse. Ligesom vægte i vores dagligdag bør metrikker også analyseres, testes og kalibreres før de tages i brug for at sikre, at deres værdier ikke er vildledende. Overordnet set er der et presserende behov for ikke blot at granske AI-modellerne og de data, der bruges til at træne dem, men også den måde hvorpå AI-fairness evalueres gennem eksisterende metrikker, så deres værdier præcist afspejler de tilsigtede aspekter og er lette at forstå.

Referencer

T. V. Rampisela, M. Maistro, T. Ruotsalo, F. Scholer, and C. Lioma. Relevance-aware individual item fairness measures for recommender systems: Limitations and usage guidelines. ACM Trans. Recomm. Syst., Sept. 2025a. doi:10.1145/3765624. URL https://doi.org/10.1145/3765624. Just Accepted.

T. V. Rampisela, M. Maistro, T. Ruotsalo, F. Scholer, and C. Lioma. Stairway to fairness: Connecting group and individual fairness. In Proceedings of the Nineteenth ACM Conference on Recommender Systems, RecSys ’25, page 677–683, New York, NY, USA, 2025b. Association for Computing Machinery. ISBN 9798400713644. doi: 10.1145/3705328.3748031. URL https://doi.org/10.1145/3705328.3748031.