ChatGPT wygenerował drastyczne obrazy przemocy, które zaszokowały naukowców

Asystenci AI, tacy jak ChatGPT, powinni być bezpieczni w użyciu i wyposażeni w odpowiednie zabezpieczenia, które uniemożliwiają użytkownikom tworzenie szkodliwych treści. Jednak brytyjska firma zajmująca się bezpieczeństwem AI właśnie odkryła, jak skłonić ChatGPT do generowania treści o charakterze pornograficznym.

Firma Mindgard, zajmująca się testowaniem silników sztucznej inteligencji pod kątem słabych punktów, odkryła, że nieznacznie zmodyfikowana wersja nieszkodliwego polecenia wirusowego może skłonić ChatGPT do generowania treści o charakterze drastycznym. Obejmowały one obrazy przedstawiające przemoc i sceny erotyczne, o które nie poproszono wprost. Technika ta polegała na poproszeniu sztucznej inteligencji o „przywrócenie” losowego obrazu, co pozwoliło na obejście zabezpieczeń poprzez przekonanie systemu, że oryginalny obraz ma wyjątkowo drastyczny charakter (nawet jeśli tak nie było).

Wyniki były przerażające – zawierały między innymi drastyczne zdjęcia martwych kobiet.

Zdjęcia te doprowadziły Jima Nightingale’a, badacza z Mindgard, do łez – napisał w opublikowanym w Internecie opisie tej techniki. „Filtry treści generowanych przez ChatGPT całkowicie przestały działać i ujrzałem bardzo mroczną stronę tego, co się pod nimi kryje; mrok niektórych zakamarków przestrzeni utajonej i obrazów szkoleniowych” – powiedział.

„Ta martwa kobieta, którą pokazał mi ChatGPT, nie jest prawdziwa, ale jest wzorowana na kimś” – dodał. „Albo, co gorsza, jest kompilacją zdjęć zamordowanych kobiet”.

Odpowiedź OpenAI

Zdecydowaliśmy się nie zamieszczać linku do tego wpisu zarówno ze względu na potencjalnie wywołujące niepokój charakter zdjęć (mimo że zostały one zamazane), jak i dlatego, że 22 czerwca, kiedy został on opublikowany, ChatGPT najwyraźniej nie odpowiedział jeszcze na zgłoszenie firmy Mindgard przesłane w maju. Później jednak odpowiedział na zapytanie BBC dotyczące tej wiadomości, informując, że stosuje szereg zabezpieczeń, aby uniknąć tego typu sytuacji.

W dokumentacji dotyczącej bezpieczeństwa firmy OpenAI opisano klasyfikatory tekstowe, które mają blokować szkodliwe żądania generowania obrazów, zanim jeszcze do nich dojdzie. Istnieje również model wnioskowania działający na dalszym etapie, który ocenia wygenerowane wyniki, zanim zostaną one wyświetlone użytkownikowi. Żadne z tych zabezpieczeń nie powstrzymało jednak zmodyfikowanego, popularnego promptu autorstwa Mindgarda.

Ten przykład manipulacji podpowiedzią jest dość skrajny, ale nie jest jedynym.

W lutym firma Mindgard opublikowała wpis dotyczący innej techniki, którą wykorzystała, by przekonać ChatGPT, że generowanie gustownych aktów jest dopuszczalne. Stamtąd wystarczyło kilka prostych kroków, by sprawić, że akty stały się, powiedzmy, mniej gustowne. Następnie udało jej się wstawić twarze osób publicznych na te zdjęcia.

Kiedy OpenAI zareagowało na ten atak polegający na manipulacji poleceniem, informując, że naprawiło problem, Mindgard zmodyfikowało to samo polecenie i nadal było w stanie generować niepokojące wyniki.

Wyścig, w którym nikt nie chce być pierwszym, który przegra

OpenAI nie jest tu największym winowajcą. Pierwsze miejsce zajmuje model Grok firmy xAI, który generował treści o charakterze seksualnym w odpowiedzi na 45 z 55 odpowiednich poleceń. W kolejnej rundzie testów przeprowadzonej pięć dni później model nadal generował treści o charakterze seksualnym w 29 z 43 poleceń, nawet gdy dziennikarze zaznaczali, że osoby przedstawione na obrazkach nie wyraziły na to zgody. Organizacja non-profit AI Forensics zebrała również 50 000 tweetów zawierających polecenia dla Groka dotyczące generowania obrazów oraz 20 000 samych obrazów. Okazało się, że 53% z nich zawierało treści o charakterze jednoznacznie seksualnym, z czego 81% przedstawiało kobiety, a 2% – dzieci poniżej 18 roku życia. Organizacja zgłosiła materiały wygenerowane przez Groka francuskim organom regulacyjnym w celu ewentualnej identyfikacji materiałów przedstawiających wykorzystywanie seksualne dzieci (CSAM) zgodnie z ustawą o usługach cyfrowych.

Problem ten wykracza poza ramy pojedynczej platformy. Jak wynika z analizy polityki przeprowadzonej przez organizację non-profit Centre for the Governance of AI, niektóre firmy zajmujące się sztuczną inteligencją zawarły w swoich ramach bezpieczeństwa postanowienia, które pozwalają im łagodzić środki zabezpieczające, dostosowując się do działań konkurencji. Może to doprowadzić do efektu kaskadowego, w wyniku którego wiele firm złagodzi swoje zasady – stwierdzono w raporcie.

Co to oznacza dla użytkowników

Gwarancje bezpieczeństwa dotyczące komercyjnych narzędzi do generowania obrazów należy traktować jako teksty marketingowe z przypisami. Twórcy tych narzędzi mogą w dobrej wierze próbować powstrzymać złych aktorów przed manipulowaniem ich systemami, ale jest to – i zawsze było – gra w kotka i myszkę. Klasyfikatory sprawdzają się w przypadku większości zwykłych użytkowników przez większość czasu, ale mogą nie powstrzymać kogoś wystarczająco zdeterminowanego.

Jeśli Twoje zdjęcie jest w sieci, załóż, że może zostać wykorzystane w sposób, którego wolałbyś uniknąć. Jeśli natrafisz na swoje zdjęcia opublikowane bez Twojej zgody, skorzystaj z funkcji zgłaszania treści na platformie i zgłoś sprawę do odpowiednich organizacji: serwisu Takeitdown prowadzonego przez National Center for Missing and Exploited Children w Stanach Zjednoczonych lub do Internet Watch Foundation w Wielkiej Brytanii.

Co cyberprzestępcy wiedzą o Tobie?

Skorzystaj z bezpłatnego skanowania śladu cyfrowego Malwarebytes, aby sprawdzić, czy Twoje dane osobowe zostały ujawnione w Internecie.

SKANUJ TERAZ