Dokáže AI identifikovat nenávistné memy?

V květnu vyhlásil Facebook „Hateful Memes Challenge“, iniciativu a soutěž za 100 000 dolarů, jejímž cílem je pobídnout vědce k vývoji systému, který dokáže identifikovat nenávistné memy. Jsou to vizuální prvky (obrázek, gif, video apod.), které jsou primárně vytvořené, aby ubližovali lidem. Tato roční soutěž nedávno pokročila do druhé fáze – bylo přihlášeno 3 000 příspěvků od stovek týmů z celého světa. I když je vidět znatelný pokrok, výsledky zatím ukazují, že ani ty nejlepší systémy nedokážou odhalovat nenávistné memy tak dobře jako člověk.

Detekce nenávistných memů je multimodální problém, který vyžaduje holistické porozumění fotkám, slovům na fotografiích i kontextu kolem nich. Na rozdíl od většiny systémů strojového učení chápou lidé kombinaci obrázků i nápisů v memech zcela přirozeně. Není výjimkou, že když se text oddělí od fotografie, tak bývá zcela neškodný – až jejich spárování může přinést potenciálně škodlivé významy.

Facebook poskytl soutěžícím dataset s 10 000 obrázky. Když jej prošla skupina lidí trénovaných na rozeznávání nenávistných projevů (z angl. hateful speech), dokázali označit až 84,7 % nenávistných memů. Na začátku prosince dosáhly tři nejlepší algoritmy týmů umístěných v žebříčku přesnosti 83,4 %, 85,6 % a 85,8 %. V porovnání s lidskými výkony jsou tedy jen nepatrně lepší. Když by podobný AI systém zpracovával 1 milion memů s přesností 85,8 %, klasifikoval by 142 000 memů nesprávně. Pokud by se takový systém nasadil na Facebooku, bylo by nenávistným memům vystaveno nesčetně uživatelů.

Multimodální učení

Proč ještě pořád představuje klasifikace nenávistných memů pro umělou inteligenci takovou výzvu? Možná proto, že se stejným úkolem často zápasí i experti z řad lidí. Anotátoři, kteří dosáhli 84,7% přesnosti v testu Hateful Memes, rozhodně nebyli nezkušení. Absolvovali čtyřhodinové školení na rozpoznávaní hateful speech a účastnili se tří pilotních běhů, během nichž memy kategorizovali. Na závěr dostali zpětnou vazbu, aby mohli zlepšit svůj výkon. Navzdory průpravě trvalo každému anotátorovi průměrně 27 minut, než rozhodl, jestli je mem „nenávistný“.

Soutěžící Hateful Memes Challenge

Mnoho účastníků soutěže Hateful Memes Challenge ještě musí podrobněji popsat svou práci. Ve svém novém příspěvku vysvětlují vědci z IBM a Marylandské univerzity, jak začlenili proces čtení obrazového textu do procesu detekce memů, a jak díky tomu získali 13. místo v žebříčku. Systém se zkrátka učí rozlišovat nenávistné memy pomocí textu v obrazu a multimodálních funkcí.

Další nadějné týmy představí svou práci během největší výzkumné AI konference NeurIPS 2020, která proběhne od 6.–12. prosince 2020 (bez diváků, pouze virtuálně).

Zásadní nedostatky

Dovednosti, jako je porozumění přirozenému jazyku, které si lidé osvojí rychle a leckdy i zcela podvědomě, představují překážky i pro ty nejlepší modely AI, a to hlavně v oblastech, kde může docházet k zaujatosti nebo zkreslení.

Vědci z Allenova institutu umělé inteligence (AI2) ve své studii poukázali na to, že neschopnost anotátorů vycítit například rozdíly v dialektu, může vést k rasové zaujatosti automatických modelů pro detekci hateful speech. Ke stejnému závěru dospěla i jiná studie. Z vyšetřování americké společnosti NBC pro rozhlas a televizi vyšlo najevo, že automatizované systémy Instagramu v USA pro moderování nenávistné řeči mnohem častěji (o 50 %) deaktivovaly účty černochů využívajících služby Instagramu než bělochů, resp. uživatelů, jejichž aktivita naznačovala, že jsou bílí.

I umělá inteligence má předsudky

Kde se berou předsudky v modelech počítačového vidění, které multimodální systémy používají ke klasifikaci obrazu? V roce 2015 jeden softwarový inženýr zjistil, že algoritmy určené k rozpoznávání obrázků v Google Photos označují černochy jako „gorily“. Další studie Washingtonské univerzity poukázala na to, že při vyhledávání obrázků profesí jako „CEO“ na Googlu byly ve výsledcích ženy zastoupeny podstatně méně než muži. Korunu tomu nasadil Cloud Vision API od Googlu, který nedávno chybně vyhodnotil obrázky – teploměry, které drželi lidé tmavší pleti, označil jako zbraně. Bezpočet dalších experimentů prokázalo, že modely pro klasifikaci obrázků trénované na ImageNetu (populární a problematický dataset obsahující fotografie z internetu), se automaticky učí lidským předsudkům o rase, pohlaví, hmotnosti apod.

Kolik je hodin? Tráva je zelená.

Systémy VQA (visual question answering), které k zodpovězení otázek čerpají ze dvou datových typů (např. text a obrázky), ukazují, že předsudky negativně ovlivňují výkonnost modelů při prováděné klasifikaci. Systémy VQA se totiž často opírají o statistické vztahy mezi slovy, aby dokázaly odpovědět na otázky i bez ohledu na obraz. Většina z nich se těžko potýká s otázkami jako „Kolik je hodin?“, protože jejich zodpovězení vyžaduje dovednost umět přečíst čas na ciferníku. Zato snadno dokážou odpovědět na otázku typu „Jakou barvu má tráva?“, protože tráva je v datové sadě, která se používá při tréninku, pochopitelně většinou zelená.

Předpojatost není jediný problém, jemuž musí multimodální systémy čelit. Rostoucí počet prací naznačuje, že např. modely přirozeného jazyka mají problém porozumět nuancím v lidském projevu.

Když se umělá inteligence sekne…

Facebook ve své zprávě Community Standards Enforcement uvedl, že nyní proaktivně detekuje 94,7 % nenávistných projevů, které nakonec odstraní. Ve třetím čtvrtletí roku 2019 to bylo přibližně 22 milionů textových, obrazových a video příspěvků. Kritici však s těmito tvrzeními nesouhlasí. Studie z Newyorské univerzity zveřejněná v červenci odhaduje, že systémy umělé inteligence na Facebooku udělají přibližně 300 000 chyb při moderování obsahu denně, přičemž problematické příspěvky nadále procházejí přes filtry Facebooku.

Jak obejít AI?

Multimodální klasifikátory také nedovedou reagovat na chytré tahy útočníků, kteří se pokoušejí nenávistné memy zaobalit úpravou vzhledu nebo textu. Systém se nechá zmást například tím, když jsou některá náhodná písmena ve slově nahrazena verzálkami, nebo když jsou ve větě zpře házen émezer y. V takovém případě už nedokáže hateful speech tak snadno odhalit a nenávistné memy dál bují na sociálních sítích.

Čeká nás dlouhá cesta

Nenávistné memy jsou diskutabilní téma, samotná kategorie a definice toho, co je „nenávistné“ nelze s jistotou určit. Lze například samotný akt schvalování nenávistných memů považovat za nenávistný? Projevy nenávisti mohou být navíc přímé nebo nepřímé – šíření pomluv, fake news, extrémistických názorů nebo propagandy. V čem spatřuje Facebook útočnost memů? Jsou to především násilné a dehumanizující řeči, prohlášení o podřízenosti, žádosti o vyloučení nebo segregaci na základě etnické příslušnosti, rasy, národnosti, imigračního statusu, náboženství, kasty, pohlaví, genderové identity, zdravotního postižení nebo nemoci. Stejně tak se za škodlivý projev považuje výsměch z nenávisti. Navzdory širokému dosahu jsou však stávající definice pravděpodobně příliš úzké na to, aby pokryly všechny typy nenávistných memů.

Nové trendy při vytváření memů, jako je psaní textu na barevné obrázkové pozadí, také multimodálním klasifikátorům neusnadňují práci. Kromě toho se většina odborníků domnívá, že bude zapotřebí dalšího výzkumu, aby se lépe porozumělo vztahu mezi obrázky a textem. Brzy možná povolají do boje větší a rozmanitější databázi, než je sbírka nenávistných facebookových memů, která čerpá z 1 milionu příspěvků.

Kdo s koho

Překoná umělá inteligence lidské výkony při klasifikaci nenávistných memů nějak výrazněji? Možná to není podstatné – s ohledem na nespolehlivost takových systémů v tak ohromném měřítku, jaké představuje například Facebook. Pokud k tomu ale dojde, tyto techniky bude možné použít i na další výzvy v oblasti umělé inteligence a strojového učení. V blízké budoucnosti by nové multimodální přístupy mohly přinést vyšší výkonnost v rozmanitých úkolech včetně slovního popisování obrázků (image captioning) i vizuálního dialogu. Nastoupili jsme cestu umělé inteligence, a je jen otázkou času, než se stroje naučí konat všechny úkoly, které byly doposud jen doménou člověka.

Zdroj: Venturebeat

 

 

Diskuze k článku