's Picture

4 viktigaste trenderna från ML-konferensen ICML 2018

Postad av ML @ Expressen

Tro det eller ej, men även i en GDPR-värld går det att samla in data. På Expressen sitter vi på stora datamängder. Det finns enorm potential att hitta nya insikter i all denna data och därigenom bygga nya verktyg för att underlätta arbetet för våra journalister samt förbättra upplevelsen för våra läsare.

För att lära oss mer om hur vi bäst kan bygga intelligenta verktyg deltog Expressen i International Conference on Machine Learning (ICML) 2018, som är en av världens största konferenser inom maskininlärning och artificiell intelligens (AI), och som lägligt nog ägde rum i Stockholm i år. Vi, tillsammans med över 5 000 andra deltagare, tillbringade sex dagar fyllda med presentationer, posters, workshops och nätverkande. Många olika ämnen diskuteras på sådana här konferenser. Några som stack ut här var rättvisa modeller, att lura modeller, reinforcement learning och integritet.

1. Rättvisa modeller

Bild från https://fairmlclass.github.io/1.html#/4
Bild från https://fairmlclass.github.io/1.html#/4

Något som blir mer och mer aktuellt är att fältet har kommit att bli betydligt mer medvetet om den påverkan (positiv som negativ) som maskininlärning potentiellt kan ha på världen. Genom hela konferensen fanns det en röd tråd av presentationer och workshops om rättvisa modeller. Normalt när man hör om AI kanske man tänker på onda robotar som kommer att ta över världen. Vad som är betydligt mer aktuellt är frågan om hur vi garanterar att modeller inte diskriminerar mot minoriteter och andra förtryckta grupper. Trots allt tränar vi modeller på data. Eftersom världen inte är rättvis kommer inte heller modellerna vara rättvisa om vi inte gör något åt det. Om man är oförsiktig kan det resultera i systematisk diskriminering i exempelvis ansiktsigenkänningssystem som har sämre träffsäkerhet för personer med mörkare hy, eller automatiska översättningssystem som antar att “Hen är läkare” bör översättas till “He is a doctor”.

Mycket av den diskussionen handlade om hur man faktiskt mäter rättvisa. Historiskt har man naivt tänkt att så länge man tar bort alla känsliga särdrag som kön och hudfärg kommer det att lösa många av problemen. Det kan dock finnas underliggande variabler som till stor del korrelerar med de känsliga särdragen och därigenom ändå riskera att producerar diskriminerande resultat.
I stället bör modellerare ha potentiellt diskriminerande särdrag i åtanke redan under modelleringsstadiet och använda olika verktyg för att villkora dessa variabler till att ha en rättvis distribution i träningsdatan. Vad som är en rättvis distribution skiljer sig från fall till fall. Det är viktigt att hålla en diskussion om detta öppen med domänexperter under utvecklingen.

2. Att lura modeller

Maskininlärningsmodeller blir allt vanligare som komponenter i system. Men hur robusta är modellerna egentligen, om någon aktivt försöker lura dem?

Ett typexempel är spamfilter. Spammare försöker hela tiden hitta sätt att komma runt modellerna, både saker som de lärt sig och strukturella svagheter i modellen. Om modellen till exempel inte kan tolka innehåll i bilder så kan angripare försöka utnyttja denna strukturella svaghet genom att skicka mail med text som ser oskyldig ut, men har ett spam-meddelande insprängt i en bild.

Just nu är det populärt att forska om attacker på modeller som ska identifiera objekt i bilder. För att försöka lura dessa modeller låter man datorer hitta små förändringar av bilder som gör att modellens tolkning förändras avsevärt. Dessa förändringar kan vara omärkbara för människor samtidigt som de gör stor skillnad för modellerna. Konstruktionen av förändringarna utnyttjar hur modellerna har lärt sig att tolka bilder.

Bild från https://github.com/anishathalye/obfuscated-gradients
Bild från https://github.com/anishathalye/obfuscated-gradients

Detta blir påtagligt i scenariot där en självkörande bil använder en maskininlärningsmodell för att förstå vägskyltar. En ovetande modell kan då exempelvis få för sig att en stoppskylt är något annat om några väl placerade klisterlappar satts på skylten. Många olika metoder för att göra sådana attacker svårare har föreslagits.

En av de artiklar som vann “Best Paper Award” på konferensen handlade om att undersöka några av dessa försvar: Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples.
Författaren säger att många av dessa försvar lätt kan kringgås. Under presentationen argumenterade han för att sättet att avgöra om ett försvar är effektivt är att låta folk med full förståelse för hur försvaret fungerar försöka kringgå det. Detta hamnar nära förhållningssättet inom kryptografi där systemet ska vara säkert även om allt om systemet (utom nyckeln och slumpgeneratorns tillstånd) är känt av angriparen.

3. Reinforcement learning

I ett helikopterperspektiv skiljer sig reinforcement learning från vanlig övervakad maskininlärning genom att inte vara beroende av annoterade input/output-par. I stället förstärks beteenden som leder till maximering av en belöning i en viss miljö. Detta involverar vanligen att försöka hitta en balans mellan utforskning av nya metoder eller miljöer, och att utnyttja det systemet redan lärt sig.

Reinforcement learning togs upp av näst flest artiklar på konferensen, slaget bara av Neural Network Architectures, vilket kan ses i följande diagram.

Bild från https://social.msdn.microsoft.com/profile/jennmar
Bild från https://social.msdn.microsoft.com/profile/jennmar

Machine Theory of Mind

Många har kanske sett DeepMinds forskning (och virala videor) där de använder reinforcement learning i simulerade miljöer för att träna streckfigurer att ta sig runt hinder. I vissa simuleringar uppvisade streckfigurerna ett till synes bisarrt beteende; de kunde till exempel ställa sig invid ett hinder utan att verka försöka passera det. För att kunna förstå vad som gått fel i sådana fall, vore det användbart att kunna titta “under huven” på modellen.

Artikelförfattarna (också från DeepMind) har inspirerats av tidigare arbete kring Theory of Mind. I det här sammanhanget definierar författarna theory of mind som “vår modell av andra agenter” - när vi observerar andra agenter, vilka förklaringsmodeller använder vi för att begripa agentens handlande? Ett första steg mot detta är enligt författarna att kunna förutsäga vad en agent ska göra härnäst, givet en serie observationer. Författarna har för detta utvecklat ToMNet, ett neuralt nätverk som lär sig just att förutsäga en agents nästa handling.

Flerarmade banditer

Bild från Yamaguchi先生 CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0/)
Bild från Yamaguchi先生 CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0/)

Multi-armed bandits (flerarmade banditer) är ett populärt applikationsområde för reinforcement learning. Problemet består i att allokera resurser mellan ett antal konkurrerande alternativ, för att på sikt maximera en belöning. Alternativens kvalitet är från början okänd, men blir med tiden mer känd; alternativt blir den mer känd ju mer resurser som spenderas på det.

Artikelförfattarna studerar Multi-armed bandit-problemet, men med några extra försvårande omständigheter: belöningen kommer inte direkt, och när den kommer så vet man inte från vilken arm den kommer. De ger en algoritm och visar att, givet att det finns en övre gräns på hur länge man behöver vänta på belöningen (eller hur mycket den varierar), så kan man sätta trevliga gränser på algoritmens tidskomplexitet. Detta fall är av intresse för Expressen då det, i våra distribuerade fall, är fördelaktigt att batcha (dvs fördröja) belöningar.

4. Integritet

Dagens samhälle genomsyras mer och mer av automatiska system. Allt eftersom fler beslut görs automatiskt så ökar incitamentet för aktörer att påverka människor som använder systemen. Detta gör det viktigt att kunna känna igen försök till påverkan samt att kunna stoppa försöken.

Ett specifikt exempel är Project PropStop som är ett samarbete mellan universitet, företag, SPIEGEL online, och Süddeutsche Zeitung. Syftet är att automatiskt kunna identifiera och analysera dolda propagandaattacker i online-media. En metod som används är exempelvis bot-detektion, där man bedömer hur sannolikt det är att ett visst konto styrs av en bot.

Ett annat problemområde som diskuterades var hur man identifierar/stoppar hashtag-attacker, där angriparen vill få ett ämne att trenda. Facebooks Information Operations team fokuserar bland annat på just sådan analys och har beskrivit sitt arbete i ett white paper.

Avslutningsvis

Det blir tydligt när man tittar på det stora antalet deltagare, både från akademi och industri, hur stort genomslag ML har i samhället. Därför var det viktigt för Expressen att vara där och därför ville vi också försöka ge en sammanfattande bild av vad som diskuteras.

För en mer grundlig genomgång rekommenderas blogginlägget av Peltarions Ele-Kaja Gildemann.

Länkar

Bibliotek och verktyg

  • Importance sampling: Bibiliotek för att sampla ner datasettet för att träna snabbare.
  • Stan: Bibliotek för MCMC och VB.
  • Orion: Bibliotek för hyperparameteroptimering och versionering av resultat.
  • CodaLab Worksheets: versionerad pipeline för kod+data.
  • jupyter-repo2docker Verktyg för att köra notebook-repon i containrar så att man inte behöver smutsa ner ens environment med repots dependencies.

Demon

Artiklar

Övrigt

PS. Missa inte vår nästa bloggpost, följ oss på Twitter!

Till startsidan