Endnu et forsøg på auto-tagging i #dkmedier

Ritzau er i gang med at bygge den robot, der skal løse et stort problem i den danske mediebranche. Når det er løst, venter de næste opgaver for medierne.

Hos MediaWatch kan vi læse, at Ritzau i samarbejde med en række danske mediehuse (se listen nederst) arbejder på en robot, der automatisk skal tagge indhold.

“Medierne får mulighed for at personificere brugerfladen (eksempelvis forsider og nyhedsbreve, red.), så artiklerne rammer de rigtige brugere på det rigtige tidspunkt. Dertil kommer, at systemet kan gøre medierne klogere på, hvilke journalistiske mønstre der trækker brugerne om bag betalingsvæggene. Kan vi nå det, så er det et digitalt kvantespring i medieverdenen,” siger Lars Versterløkke [adm. direktør i Ritzau].

Kort fortalt går tagging ud på, at man tilføjer nøgle- eller emneord til sit indhold. Det gør det lettere at relatere forskellige stykker indhold (for eksempel artikel) sammen, så man kan linke imellem dem — samt blive klogere på sine brugeres adfærd.

Vil du have styr på automatisering i mediebranchen?
Tag med til vores Automation Day

Det er altså en rigtig god idé. Problemet er, at tagging er en ekstra proces, som bliver gjort allerbedst, hvis det bliver gjort konsistent af dem, der producerer indholdet. Men det er urealistisk, fordi journalister har en travl hverdag og let glemmer at tagge indholdet – og det er ikke muligt at gøre tagging påkrævet, fordi det vil ramme den journalistiske proces og hastighed.

Derfor forsøger Ritzau sammen med mediehusene derfor at gøre det automatisk. Det går i al sin enkelthed ud på at fodre en maskine med en masse tekst, og MediaWatch fortæller, at robotten skal til eksamen i marts. Her skal den automatisk tagge 5.000 en artikler, som et menneske inden da har tagget manuelt.

Informations projekt

Tanken om autotagging er ikke ny. Tilbage i 2011-2012 turnerede Infomedia med deres Tagger.dk-projekt, der gik ud på automatisk at tagge indhold med relevante tags indenfor overordnede kategorier som personer, organisationer etc. Hovedpersonerne bag Tagger.dk var Nikolai Thyssen og Johannes Wehner, der begger arbejder for DR den dag i dag. (DR er med i Ritzaus projekt.)

(Se i øvrigt tweets om Ritzaus projekt fra Johannes Wehner nederst i artiklen)

Computerworld skrev om Tagger.dk-projektet i juni 2011:

“På Tagger.dk kan man hente de datasæt, som Information har opbygget og bruger. Det er dog primært knyttet til personer, organisationer og firmaer. Tanken er, at Tagger-projektet skal skabe et open source-miljø omkring datasæt, så det bliver let at dele og opdatere. Lige nu er den automatiske opmarkering af ord tilgængeligt i en webservice, men der arbejdes netop nu på at gøre Tagger til et bibliotek, som kan bruges enten i en webservice eller i fx et Drupalmodul.”

Tagger.dk sprang ud af Informations eget arbejde med tagging, og de mente – fornuftigt nok – at det var noget, der måske kunne gavne branchen.

Min hukommelse om, hvordan det gik Tagger.dk er lidt tåget (måske Nikolai eller Johannes kan hjælpe os?), men jeg mindes, at det desværre var småt med tilslutningen, og derfor fik projektet aldrig det afsæt, det nok reelt fortjente.

God opbakning

Anderledes ser det umiddelbart ud med Ritzau-projektet, der har opbakning fra en række mediehuse:

  • Børsen
  • Kristeligt Dagblad
  • A4 Medier
  • Nordjyske Medier
  • Mediehusene Nordjylland
  • DR
  • TV 2
  • Dagbladet Børsen
  • TV 2 Regionerne
  • Berlingske Media
  • DKNyt
  • Sjællandske Medier
  • Jysk Fynske Medier

Og det kræver den opbakning for at kunne lykkes.

I listen mangler JP/Politikens Hus. MediaWatch har talt med Troels Jørgensen, der er digital direktør hos Politiken. Han forklarer fraværet med, at de allerede er godt i gang med et lignende projekt. Han udelukker dog ikke et eventuelt samarbejde eller berigelse.

Mediernes opgaver

Ved at få indholdet tagget, har mediehusene dog kun overstået den første hurdle. Den næste er, at gøre taggingen konsekvent og hurtig.

Det vil sige, at artiklerne naturligvis skal tagges sammenhængende (her er robotter bedre end mennesker), og det skal helst ske hurtigt efter publicering.

Ofte har en online-artikel de fleste sidevisninger og besøg umiddelbart efter publicering. Derfor er det vigtigt, at robotten får tagget artiklen så hurtigt som muligt, så mediet kan lede brugeren i retning af relaterede historier.

Mediehusene skal selvfølgelig også gøre op med sig selv, hvad de vil med tagging. Vil de pege brugerne videre til selve tag-siderne (“Læs flere artikler om FC Barcelona her”), eller vil de vise andre artikler med samme tag(s) direkte på artiklen — og skal det i så fald være de seneste, mest læste eller på anden måde mest populære af de artikler?

Medierne kan selvfølgelig også smide taggingen ind i et system, der så beregner hvilke artikler, der har størst lighed med hinanden og derfor bør være hinandens relaterede.

Endnu en udfordring er tilføjelsen af nye tags. Når der sker en nyhed, vil det være vigtigt for et medie at kunne kæde den sammen på et tag. Derfor skal medierne hurtigt kunne oprette et ny tag, og systemet skal hurtigt kunne opdage dette og tagge de nye artikler hurtigt, således at dækningen af nyheden også hænger sammen for brugeren.

Det arbejde, som Ritzau og svenske Imatrics (der ifølge MediaWatch udvikler robotten) er et stort skridt i den rigtige retning. Jeg håber, at systemet lever op til mediernes krav og har det rette snit i forhold til tilretning.

For den danske mediebranche har manglet et system som dette i 10 år. ◾

Gør som de andre:

Tilmeld dig Digital Ugerevy

Få de vigtigste historier indenfor nye medier og digital udvikling:

Få styr på automatisering i mediebranchen:

Opdatering:

Johannes Wehner (Senior Editorial Developer hos DR, der var med til at udvikle Tagger.dk, da han var på Information) skriver på Twitter:

Lars K Jensen

Lars er journalist af baggrund og har arbejdet med digital udvikling i mediebranchen i mere end 10 år, bl.a. som leder af Ekstra Bladets redaktionelle udviklingsteam og chef for produktudvikling hos Infomedia.

Han hjælper medier og virksomheder med at forstå deres brugere og udvikle deres digitale produkter. Lars udgiver også Digital Ugerevy.

Kontakt Lars på lars@larskjensen.dk

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

This site uses Akismet to reduce spam. Learn how your comment data is processed.