ADD’s blogindlæg åbner et vindue til arbejdet i og på tværs af ADD. Mød vores forskere fra seks danske universiteter: Aalborg Universitet, Aarhus Universitet, Copenhagen Business School, Roskilde Universitet, Københavns Universitet og Syddansk Universitet. Læs om vores projekter, aktiviteter, ideer og tanker, og bliv inspireret til at få et nyt perspektiv på de kontroverser og dilemmaer, vi står over for i det digitale demokrati, og hvordan vi kan arbejde for at fremme demokratiet i en digital tidsalder.
Af Alf Rehn, Professor på Institut for Teknologi og Innovation, Syddansk Universitet
ADD (»Algoritmer, data og demokrati«) er et forskningsprojekt, der kan siges at være belastet af et navn, som måske skjuler mere, end det afslører. På overfladen virker tingene ganske almindelige, endda hverdagsagtige. Når vi starter fra slutningen, føler vi alle, at vi ved, hvad demokrati er, i det mindste i en funktionel grad. Ordet kommer fra oldgræsk, dēmokratia, afledt af ordet for »folk« og ordet for »magt« eller »styre«. Folkets styre altså, på godt og ondt. Et enkelt koncept, selv om det kan skabe forskellige problemer i praksis. Når det gælder projektets første ord, algoritmer, føler vi måske, at selvom begrebet i sig selv ikke er så kompliceret, er vi ikke helt sikre på, om vi forstår det fuldt ud. Vi ved måske, at det kommer fra Muhammad ibn Musa al-Khwarizmi, eller mere præcist Muhammad, Musas søn, født i Khwarizm (i dag kendt som Khiva, Usbekistan), hvis navn senere blev latiniseret til Algoritmi, da hans arbejde med det hindu-arabiske talsystem blev udgivet i Europa (under titlen »Algortimi du numero Indorum«). Vi ved, at det har noget at gøre med beregninger og metoderne hertil, og helt ærligt, så er det der, de fleste af os overlader tingene til nørderne. Vi ved ikke helt hvordan, men vi ved, at algoritmer, hvis de plejes rigtigt, kan skabe mærkelige og vidunderlige ting, i en sådan grad, at vi endda er lidt bange for dem.
Hvis man sætter de to ord sammen – som f.eks. i begrebet »algoritmisk demokrati« – begynder panderynkerne at melde sig. Vi accepterer, at algoritmer kan hjælpe i verden, men at kombinere dem med demokrati lyder … forkert. Det lugter af automatiserede afstemninger, manipulation, computere, der tager over, og en række andre ubehageligheder. Det ene kan vi godt lide, det andet er vi lidt usikre på, og sammen rejser de flere spørgsmål, end de besvarer. Hvilket, hvis man tænker over det, er ret perfekt til et forskningsprojekt – noget at synes om, noget at tvivle på og masser af spørgsmål at tage stilling til.
Den kvikke læser vil nu have bemærket, at jeg i denne noget spøgefulde dekonstruktion af projektets navn slet ikke har berørt det midterste ord, det lille ord »data«. Det er det eneste af de tre udtryk, der har en basis i latin, da det kommer fra verbet dare, som betyder »at give«. En ting, der gives eller tildeles, er altså et datum, og flertalsformen af dette er data. Data betyder således noget i retning af »ting, der er givet os«. I middelalderen begyndte filosofien at bruge dette udtryk til at angive ting, der var »givet«, dvs. sande med henblik på argumentation eller ræsonnement (nogle gange i form af »data rerum«). Med tiden overtog videnskaben denne brug, og etymologien blev forvirret. Data blev et massesubstantiv, der blev brugt ret bredt, og efterhånden som det skete, blev der sat færre og færre spørgsmålstegn ved begrebet. I dag bruger vi det som en del af et lille hierarki, hvor data antages at være råmaterialet (som i »data er den nye olie«), som kan struktureres til information og i en sammenhæng omdannes til viden. Det virker alt sammen meget overskueligt!
Lad os nu teste det i praksis. Følgende er data: 48, 12, 9, 28, 18, 24, 22, 52
I denne form er det næsten ubrugeligt, medmindre du virkelig har brug for lottotal eller leder efter et usandsynligt kodeord. Men hvis vi tilføjer noget til det, bliver det lidt mere interessant. Denne datastreng er nemlig alderen på en gruppe mennesker. Vi har nu nogle oplysninger om denne gruppe, f.eks. at størstedelen af gruppen er voksne, i hvert fald i den forstand, at de kan stemme. Vi ved også, at to er børn, og at ingen er alderspensionister. Det er ganske vist ikke de mest spændende oplysninger, men alligevel. Jeg kan nu tilføje endnu en dimension til dette og fortælle dig, at talrækken beskriver alderen i min familie, dvs. alderen på mig og min partner og alderen på vores børn. Nu har du lidt viden om min familie – det var så lidt. Så langt, så enkelt, ikke?
Der er dog stadig nogle uafklarede spørgsmål. Hvad var data, før de blev til information? Hvis du svarer data, har du ret, men kun i en generel forstand. Den række af tal, jeg præsenterede (eller gav, om man vil), kunne have været tilfældige tal, som jeg havde fundet på. Det var de ikke, da jeg havde oplysningerne om vores aldre ved hånden, men betyder det, at det på samme tid var oplysninger for mig og data for dig? Var det således kun data fra nogle perspektiver, men information fra andre? Hvad hvis jeg løj? Var det stadig data for dig, selv om jeg vidste, at det bare var tilfældige tal? For at gå lidt videre: Jeg skrev, at vi »kan tilføje noget til det«, idet jeg afslørede, at tallene repræsenterede aldre. Var det en form for data? Det var en kategori, der var ubrugelig i sig selv (overvej spørgsmålet: »Hvad er medianalderen for drager?« – Det er desværre ikke muligt at skaffe de data, der er nødvendige for at omdanne det spørgsmål til information og viden), så det ser ud til at være det. Men hvor kom det fra? Det eksisterede helt klart før dataene i serien, og det er sandsynligt, at kategorien og de data, der kan udfylde den, ikke opstod som separate enheder. Vi begyndte snarere at være opmærksomme på aldre, og dataene og kategorien, der skabte sådanne oplysninger, opstod samtidig.
Det ser altså ud til, at data ikke bare er data. Mere præcist er det, vi taler om som data, det, der kan udfylde kategorier, som vi har besluttet er vigtige, interessante og passende for specifikke fænomener. Tænk f.eks. på de data, vi plejer at få om vores børns skoleklasser: Hvor mange elever der er, og hvordan de er fordelt på køn. Førstnævnte data er for os information om, hvorvidt klassen er »lille« eller »stor«, og bruges især til at sikre, at klassen ikke er »for stor«. Det betyder også, at skolerne ved, at data ikke må overskride en vis grænse – hvis en skole siger, at den har en klasse med 50 elever, vil det sandsynligvis være ulovligt og medføre en storm af protester fra forældrene. Så selvom kategorien »klassestørrelse« kan virke som en, der kan indeholde datapunkter fra 1 til tusind eller mere, er dataene faktisk nøje kurateret til at ligge i et ret begrænset spænd – i Danmark mellem 24 og 28, med nogle outliers. Kan man virkelig adskille data og information, når det drejer sig om klassestørrelse? Dernæst har vi spørgsmålet om køn i klassen. Uden at tænke over det går vi ud fra, at de »korrekte« data for denne kategori er noget, der ligner en jævn fordeling, f.eks. 14+14 i en klasse med 28 elever. Skolerne er igen meget opmærksomme på kravene til kuratering, så de sørger for, at klasserne kun sjældent har en skæv kønsfordeling. Så de antagne data i udsagnet »Der er 13 drenge og 14 piger i mit barns klasse« er faktisk påvirket af vidensantagelserne i den pågældende kategori. Men igen, hvorfor disse specifikke data? Størrelse og køn, og for de fleste forældre relativt lidt ud over dette. Det er f.eks. meget usædvanligt at få data om klassens lykke, om støjniveauet i klassen i dB eller den gennemsnitlige læsehastighed blandt eleverne. Alt dette ville være data om klassen, men af forskellige årsager anses kun en meget begrænset mængde data for at være vigtige nok til at indsamle. I nogle tilfælde kan det skyldes, at det er svært at måle – som f.eks. i tilfældet med lykke. I andre tilfælde kan det skyldes frygt for en modreaktion – ingen forældre ønsker, at deres børn skal gå i en larmende klasse. Et skelsættende essay fra andenbølgefeminismen, skrevet af Carol Hanisch i 1969, havde titlen »The Personal Is Political« og understregede den politik, der lå bag meget af det, der blev anset for at være personligt eller privat. I dag er vi måske nødt til at åbne op for det faktum, at data langt fra kun er det neutrale grundlag for information, men også er politisk.
For nogle kommer det ikke som nogen overraskelse. Meget af det, der er blevet diskuteret om algoritmer, data og demokrati, har været meget fokuseret på spørgsmål om privatlivets fred og fordomme, ofte med den antagelse, at når det drejer sig om data, er mindre bedre. Hvis Big Tech har færre data om os, vil de ikke være i stand til at manipulere os på samme måde – sådan lyder det i hvert fald. Dette ignorerer dog den lektie, vi bør lære af etymologien bag ordet »data«. Det står for det, der gives, de antagelser, der gøres om, hvad der er vigtigt, den måde, hvorpå vi giver os selv til verden. Vi er (for det meste) glade for at give vores køn og alder, da disse givne kategorier har været med os som definerende fra det øjeblik, vi lærte at tale – det første, vi lærer et barn at kommunikere til andre, er deres navn og alder. Kun få tænker over, at dette faktisk ikke er data om os, men information. Kategorierne her går forud for os, og når vi bliver født, bliver vi tildelt et køn og får vores alder registreret. Ikke så meget som data, men som en del af et informationssystem, der er klar til at kategorisere os og behandle os som noget givet. Den mindste afvigelse fra dette, og systemet kommer i vanskeligheder og skubber de data væk, som ikke passer ind. Tænk f.eks. på en ung mand i min udvidede familie. I de danske datasystemer er han velkategoriseret med alle de rigtige navne og koder. Men der er noget ved ham, et datapunkt, som ikke passer ind i den danske stats informationsstruktur. Dette noget er tilfældigvis en funktionel livmoder, som i øjeblikket er optaget af at fostre et nyt liv. De eksisterende informationssystemer i Danmark har ikke kapacitet til at tilføje disse data, da mand-med-livmoder ikke er en kategori, der kan vælges. Faktisk bliver disse data om ham i systemet ikke-data, da der ikke er nogen måde at indfange dem på. Hans overskud af data bliver ignoreret, efterladt og behandlet som noget, der slet ikke er givet.
Hvorfor er alt dette vigtigt? Kort sagt fordi data er en langt mere kompleks kategori, end vi er klar over. Vi behandler det som noget i retning af olie eller vand, en frit flydende ressource, der altid er klar til brug. I virkeligheden er data ofte et valg – vi vælger de data, vi indsamler, ud fra kategorier, som vi måske eller måske ikke forstår, og de data, vi ikke vælger, tænker vi ikke så meget over. Vi lærer visse ting om skoleklasser eller mennesker i sundhedsvæsenet, men kun det, som de foruddefinerede strukturer giver os mulighed for at vide. At en anden verden er mulig med andre datastrukturer, har en tendens til at gå i glemmebogen.