's Picture

Rapport från KDD 2017 – så kan nyhetsmedierna bli bättre på maskininlärning

Postad av Andreas Launila och Eric Skoglund

Knowledge Discovery and Data Mining (KDD) är en av de största och mest väletablerade konferenserna inom maskininlärning och relaterade områden i världen. Maskininlärning är ett viktigt verktyg som vi jobbar aktivt med i Expressens produkter och därför var vi så klart på plats. Detta år gick konferensen av stapeln den 13 augusti och vi fick denna gång resa ända till Halifax på Kanadas östkust.

Keynote av Cynthia Dwork: What's Fair?
Keynote av Cynthia Dwork: What's Fair?

Konferensen utmärker sig som en mötesplats mellan den akademiska världen och industrin. Man pratar både om det senaste inom forskningsvärlden och hur det används hos företagen. Bland deltagarna fanns stora företag som Google, Facebook, Amazon, men också kinesiska aktörer som Alibaba och Didi. Totalt var det drygt 1 600 deltagare från mer än 50 länder som tillsammans presenterade fler än 200 forskningsresultat.

Data Science + Journalism

Nytt för i år var workshopen "Data Science + Journalism" vilken vi givetvis deltog i. Där pratades det bland annat om de tekniska utmaningarna med att gräva i Panamadokumenten och vartåt framtiden bär.

Workshopen hade en blandning av exempel på hur maskininlärning har hjälpt till med enskilda publiceringar och hur vi ska bygga verktyg för att hjälpa journalister att kunna göra sitt jobb bättre och enklare. Till exempel presenterades verktyg för att kunna hitta naturkatastrofer av globalt nyhetsvärde och utforska nyhetsarkiv. Från workshopen tog vi med oss matnyttigt material. De viktigaste insikterna var:

  • Augmentation not Automatization: Automatisera bort repetetiva moment (kolla igenom 10 000 dokument och extrahera ut något), bygg verktyg som hjälper journalister att kunna göra sitt jobb enklare.
  • Jobba nära redaktionen: Genom att sitta sida vid sida med journalister så får man en mer korrekt bild av deras behov.
  • Hypen inom området är markant: Bara för att något är det nya heta behöver vi inte använda det. Fokusera på att göra skillnad.

Artiklar och presentationer

Under själva konferensen hoppade vi runt bland de olika spåren och försökte täcka det som lät mest intressant. Här är ett axplock:

Vi förväntar oss att videorna kommer upp förr eller senare på konferensens youtube-kanal. Under tiden rekommenderar vi varmt vinnaren av audience appreciation award.

Just varianter av bandit-algoritmer är av intresse för oss då vi ser många tillämpningsområden (och redan har ett system för en enkelare bandit-variant).

Verktyg och bibliotek

Under sådana här konferenser presenteras många verktyg och bibliotek. Här är några som vi finner intressanta:

  • Aleph: Ett verktyg för att gå igenom stora mängder ostrukturerad data.
  • AutoPhrase: Ett bibliotek för phrase extraction från text.
  • ClusType: Ett bibliotek för att extrahera entiteter och bestämma deras typer i ostrukturerad text med hjälp av kunskapsdatabaser.
  • LargeVis: Ett verktyg för att visualisera hög-dimensionell data (specifikt gjord för att hantera fall där mängden data gör att alternativet t-SNE tar för lång tid).
  • Pachyderm: Ett verktyg för att versionshantera data-projekt och bygga pipelines.
  • PhraseMachine: Ytterligare ett bibliotek för phrase extraction.
  • Pliers: En wrapper för diverse bibliotek och APIer för att extrahera features från bilder, text och ljud.
  • Reveal: Ett verktyg för att hjälpa till att avgöra om en bild har manipulerats.
  • TFX: Ett högnivågränssnitt för TensorFlow.

PS. Missa inte vår nästa bloggpost, följ oss på Twitter!

Till startsidan