Methodik zur Recherche Wie KI-Algorithmen benachteiligen können
Dieser Artikel beschreibt die Methodik zur Recherche "Wie KI-Algorithmen Frauen benachteiligen können"
Das AI + Automation Lab des Bayerischen Rundfunks hat etwas mehr als 3000 Bilder von vier Systemen bewerten lassen, die unter anderem zur Content Moderation eingesetzt werden können. Sie sollen in der Lage sein, Bilder danach zu bewerten, inwieweit sie sexuell anzüglich sind.
Die getesteten Schnittstellen von Google (Cloud Vision API Safesearch) und Microsoft (Computer Vision API) geben nur einen Wert dafür zurück, wie wahrscheinlich ein Bild als sexuell anzüglich eingestuft wird. Amazon Web Services(Rekognition API) und Sightengine (Nudity Detection API) liefern mehrere Werte. Sie alle bewerten, wie wahrscheinlich ein Bild als sexuell anzüglich eingestuft wird. Wir normalisieren sie zwischen 0 und 1, um sie miteinander vergleichbar zu machen. Wichtig ist: Keiner der Dienste liefert eine Entscheidung – anzüglich ja oder nein –, sondern einen Wert dafür, wie wahrscheinlich es ist, dass auf dem Bild sexuell Anzügliches abgebildet ist. Die Konsequenzen aus den Ergebnissen müssen die Kunden selbst ziehen, indem sie einen oder mehrere Grenzwerte definieren, an denen weitere Aktionen eingeleitet werden. Ein fiktives Beispiel: Ab einer Wahrscheinlichkeit von 98 Prozent werden alle Bilder automatisch gelöscht, ab einem Wert von 50 Prozent soll ein Mensch nachprüfen.
Die Auswahl der Testbilder deckt grob drei Anwendungsfälle ab: Bilder, auf denen Haut von Personen zu sehen sein soll und gleichzeitig vergleichsweise standardisiert fotografiert wurden; Bilder, die in einem Umfeld aufgenommen wurden, das nicht sexuell aufgeladen ist, etwa Beruf oder Freizeit, und drittens, Bilder, die mit sexueller Anzüglichkeit spielen.
Google und Microsoft nennen diese Kategorie “racy”, Amazon Web Services und Sightengine “suggestive”. Wir fassen die beiden Begriffe im Deutschen zusammen als “anzüglich”. Zumindest für die Kunden von Amazon Web Services und Sightengine gibt es die Möglichkeit, auch mit Unterkategorien wie etwa "Unterwäsche" oder "Dekolleté", also mit mehreren Dimensionen von Anzüglichkeit, zu arbeiten. Alle vier getesteten Dienste bieten auch weitere Services im Bereich der Bilderkennung an: Das Standardrepertoire besteht aus der automatischen Erkennung von Pornografie, Gewaltdarstellungen, Alkohol, Drogen, verbotene Symbole wie Hakenkreuze.
Wie wurde ein Gender Bias bestimmt?
Wir haben die Bewertungen der vier Dienste mit einer idealen Welt verglichen, in der es keine Unterschiede auf Grund eines Geschlechtes gibt. Das schaffen wir, indem wir die Information ob auf dem Bild ein Mann oder eine Frau zu sehen ist, zulosen. Diese Information sollte also für das Ergebnis keine Rolle spielen sollte (Nullhypothese). Danach vergleichen wir 100 Stichproben aus der Datenbasis, innerhalb derer wir jeweils 1000 mal losen (simulationsbasierte Tests mit Bootstrapping). So simulieren wir 100 000 kleine Welten ohne Unterschied zwischen den Geschlechtern. Danach prüfen wir, ob der beobachtete Wert aus der Stichprobe in die simulierte Welt passt. Falls nicht, kann davon ausgegangen werden, dass es einen Gender Bias gibt, also die Wahrscheinlichkeit sehr gering ist, dass der Unterschied der Durchschnittswerte genauso in der simulierten Nullhypothesenwelt auftauchen könnte, was bedeutet: Es ist sehr unwahrscheinlich, dass der gemessene Gender Bias in den Daten ein Zufall ist.