Analyse: Twitters crowdsourcede faktasjekkeksperiment avslører problemer

Analyse

En Poynter-analyse fant at mindre enn halvparten av Birdwatch-brukere inkluderer kilder og mange faktasjekknotater inneholder partisk retorikk.

En 14. februar-versjon av Twitters Birdwatch-algoritme forsterket noen notater med villedende informasjon.

5. februar flagget Twitter et innlegg fra den kontroversielle YouTuberen Tim Pool som sa at det amerikanske presidentvalget i 2020 var rigget. Plattformen bemerket at kravet ble bestridt og slått av engasjement 'på grunn av en risiko for vold.'

Men på Fugleklokke , plattformen for sosiale medier eksperiment i crowdsourcet faktasjekking , sa brukere overveldende at tweeten ikke var villedende, ifølge en 14. februar-analyse av Twitter-data. Og de fleste Birdwatch-brukere indikerte i verktøyet at de fant disse notatene som støttet avkreftede påstander nyttige og informative.

'I følge den offisierende (sic) kilden til TIME var det en godt organisert gruppe hemmelige deltakere i en skyggeorganisasjon som høres ut som en kabal som jobbet sammen for å påvirke valget til fordel for Joe Biden,' heter det i en lapp. Mens brukeren inkluderer en lenke til en Time Magazine-artikkel som faktisk bruker ord som 'kabal' og 'konspirasjon,' konteksten til stykket - at mektige grupper jobbet bak kulissene for å beskytte valgintegriteten - går tapt.

De Fugleklokkealgoritme , som tar sikte på å vise nyttige notater, tildelte at 'faktasjekk' en hjelpsomhetspoeng på 0,68 - den høyeste av notatene på tweeten, like utenfor topp 10% av notatene vurdert av algoritmen 'vurdert som nyttige' pr. 14. februar. Notater med nyttige karakterer utgjorde omtrent 7 % av de 2 695 i denne analysen, og færre enn to tredjedeler av disse inneholder en kildekobling som ikke er en annen tweet.

17. februar Twitter endret algoritmen og notater på Pool-tweet er ikke lenger vurdert som nyttige, selv om de er fortsatt oppført under innlegget . Før denne endringen var det en lavere terskel for å bli ansett som nyttig – bare 0,5 sammenlignet med den nye grensen på 0,84 – og notater trengte bare tre vurderinger for å være med for å bli ansett som nyttige, prioritert i rekkefølge og merket med en blå lapp.

Nå må et notat samle fem rangeringer for å presse den tweeten inn i ny 'vurdert nyttig'-fane i Birdwatch . Og av de nesten 2700 notatene i plattformens database, møtte 126 den nye terskelen - det er mindre enn 5%. Tre fjerdedeler av nye 'vurderte nyttige' notater inneholdt en kilde utenfor Twitter.

Det er en betimelig illustrasjon av et av problemene Fugleklokke-modellen står overfor: Kan en algoritme matet av en tilsynelatende tilfeldig gruppe mennesker noen gang 'vurdere' sannheten nøyaktig?

Birdwatch, i sin pilotfase med litt mer enn 1000 brukere, lar deltakerne flagge tweets som villedende og legge til et notat som siterer en kilde og/eller forklarer konteksten for hvorfor den kan være misvisende. Deretter kan Birdwatch-brukere rangere disse notatene basert på hjelpsomhet (etter det tar algoritmen over).

Til slutt vil alle Twitter-brukere tilsynelatende kunne se disse notatene rett under tweets, men foreløpig er de begrenset til en bestemt del av nettstedet . Fugleklokkebrukere vil også etter hvert bygge en omdømmepoengsum som vil inngå i hjelpsomhetsalgoritmen.

'Målet vårt med Birdwatch-piloten er å bygge et system der alle kan bidra, og som naturligvis hever informasjon som folk synes er nyttig,' sa Twitters visepresident for produkt Keith Coleman i en e-post. 'Vi tror at åpenhet i hvem som kan bidra er viktig, og at gjennom innspill fra en mangfoldig gruppe kan de mest nyttige notatene heves.'

Men en titt på systemet slik det er nå avslører utfordringer som faktasjekkere har tatt opp om Birdwatch: mangel på faktasjekkingsekspertise blant brukere, vanskeligheten med å lage en algoritme som på en eller annen måte vil vise de mest anerkjente brukernes nyttige notater og spørsmål om partipolitiske motivasjoner til brukere.

'Jeg er ikke overrasket over disse funnene gitt den polariserte karakteren til sosiale medieplattformer og mainstream-brukeres nøling med å gi tilbakemelding til slike henvendelser fra plattformer, mens motiverte brukere fra begge sider av midtgangen ser på plattformer som kampplasser for å promotere deres fortellinger over andre, sier Baybars Örsek, direktør for International Fact-Checking Network.

Et flertall av notatene til den mest produktive Birdwatch-brukeren markerer tweets som er kritiske til høyresiden som «villedende» og de som er kritiske til venstresiden som «ikke villedende». (For eksempel, brukeren markerte en tweet som sier ' Team Biden er myke mot Kina ' fra senator Ted Cruz and the Pool tweet som 'ikke villedende'; samtidig som en Newsweek-artikkel om høyreekstremister og GameStop-sagaen og en tweet å knytte president Donald Trump til Capitol-opprøret ble markert som «misvisende» og «skadelig».) Og mindre enn en femtedel av brukerens 82 notater inkluderer en kilde, hvorav flere er andre tweets. (Denne Birdwatch-brukeren svarte ikke på en forespørsel om et intervju.)

Coleman sa at Birdwatch kan motiveres til å vurdere notater som kommer fra et «mangfoldig sett med bidragsytere». Videre er vurderingssystemet hoveddriveren bak plattformen

'Vi tror disse vil belønne og stimulere bidrag som mange mennesker finner verdifulle, og adressere risikoen for at en bestemt gruppe eller ideologi overtar Birdwatch,' sa Coleman. 'Dette er noe vi vil jobbe aktivt med gjennom hele piloten.'

Og faktisk, notatene algoritmen rangerte som de mest nyttige etter endringene 17. februar viser mer solid kilde og mindre partisk retorikk enn iterasjonen fra bare en dag tidligere. Men å endre en algoritme for et pilotprogram med 1 000 brukere og færre enn 2 700 sedler er én ting, å endre en algoritme når Birdwatch er tilgjengelig for alle brukere er en annen – og hvem vet om effektiviteten til algoritmen vil holde stand når brukerne begynner å strømme inn på plattformen, og kanskje gjenskape oppførselen til noen av de mest produktive pilotdeltakerne.

'Vi har for øyeblikket ingen spesifikk tidslinje for skalering, siden vi jobber med å lære så mye som mulig og iterere mens piloten er liten,' sa Coleman. 'Vi planlegger å skalere opp ettersom vi er i stand til å gjøre det trygt, og når det kan bidra til å forbedre læringen.'

Likevel, som med notatene under Pool-tweet, er det det eksempler på partisan eller villedende informasjon fortsatt synlig som vanlige notater.

Fire av de fem mest aktive brukerne, som står for mer enn 10 % av de totale notatene, har lignende aktivitet som den mest produktive brukeren. En av dem hevder at Jeffrey Epsteins død aldri ble dømt som et selvmord. Imidlertid siterer den nest mest produktive fuglekikkeren en kilde i hver note, inkludert lenker fra Verdens helseorganisasjon og FactCheck.org .

Ingen av de 10 beste brukerne, ifølge deres Twitter-bios, er profesjonelle faktasjekkere eller journalister.

'Faktasjekking er faktisk hardt arbeid ved at det er mentalt krevende,' sa PolitiFact-sjefredaktør Angie Holan i en e-post. 'Du må virkelig konsentrere deg og presse gjennom mental treghet for å identifisere påstander og deretter brainstorme måter å avkrefte eller bekrefte dem. Deretter må du følge opp med søk og deretter skrive opp funnene. Det er ikke en dag på stranden, for å si det rett ut. Og hvis en faktasjekker har en partisk motivasjon, gjør det en grundig og jevn innsats enda vanskeligere.»

Til tross for problemene, flagger Birdwatch feilinformasjon som tradisjonelle faktasjekkere kan gå glipp av eller velger å ikke sjekke på grunn av potensiell skade - noe som kan bidra til å fylle noen hull i digital feilinformasjon. I løpet av game stop saga , feilinformasjon om selskapets aksjer spredte seg raskt på tvers av plattformer.

Snopes og PolitiFact vurderte ikke påstander angående GameStop, mens Lead Stories vurdert ett Reddit-innlegg. Men på Birdwatch, den høyest rangerte notatet - med en hjelpsomhetspoeng på 1,00 - flagget en villedende tweet om Reddit, der samtalen om aksjen fant sted. Det var rundt 50 notater om Reddit, GameStop og Robinhood-investeringsappen, hvor det skjedde et høyt volum av handel tidligere denne måneden.

Og Birdwatch-brukere har korrekt flagget en konto som hevder å tilhøre Virginia Sen. Amanda Chase som falsk, etter den twitret , '... Vi har et narkotikaproblem i Virginia, og legalisering av marihuana vil bare føre til flere marihuana-overdoser og dødsfall ...'

Crowdsourcing kan gjøre livet til profesjonelle faktasjekkere enklere ved å oppdage feilinformasjon, sa Örsek.

Coleman sa at Twitter er forpliktet til å opprettholde åpenhet – noe som gjorde denne analysen mulig – og inkludere innspill fra eksperter om plattformens fremtid.

'Fra å jobbe med et innebygd teammedlem fra University of Chicago Center for RISC , for å være vertskap for tilbakemeldingsøkter med journalister og forskere, jobber vi med å utnytte den enorme mengden ekspertise og kunnskap som finnes utenfor Twitter,» sa han.

Holan og Örsek anbefaler insentiver og opplæring for Birdwatch-brukere, i tillegg til å ansette profesjonelle faktasjekkere for å behandle høytstående notater.

'Men jeg er ganske tvilende til teknologiselskaper som tror at brukerne deres vil moderere innhold gratis for dem,' sa Holan. 'De fleste brukere ser det ikke som jobben deres å hjelpe plattformene med å drive sine egne virksomheter.'

Finn Ut Kompatibilitet Med Stjernetegn

Analyse: Twitters crowdsourcede faktasjekkeksperiment avslører problemer

Analyse

En Poynter-analyse fant at mindre enn halvparten av Birdwatch-brukere inkluderer kilder og mange faktasjekknotater inneholder partisk retorikk.