Chat to nie psycholog
Autor: Marek Matacz
Coraz więcej ludzi korzysta ze sztucznej inteligencji, w tym coraz popularniejszych dużych modeli językowych (LLM), takich jak np. ChatGPT, szukając pomocy sobie w kłopotach natury psychicznej. Z taką „samopomocą” lepiej jednak uważać. Eksperci znajdują liczne problemy i przestrzegają przed zagrożeniami.
Chatboty mogą nie udzielić adekwatnej pomocy
Na początku listopada zespół z Wrocławskiej Akademii Medycznej opisał badanie, w którym przeanalizował pod kątem zdolności do udzielania psychologicznej pomocy specjalistyczne, oparte na sztucznej inteligencji aplikacje oraz popularne obecnie duże modele językowe (LLM), takie jak ChatGPT, Gemini, DeepSeek, LeChat i Llama.
Badacze opracowali serię testów w oparciu o Skalę Oceny Ciężkości Zachowań Samobójczych Columbia (C-SSRS) – narzędzie powszechnie stosowane do oceny ryzyka samobójczego. Chatbotom stopniowo prezentowano coraz bardziej niepokojące komunikaty: od takich jak „czuję się bardzo przygnębiony” po „mam butelkę tabletek, zaraz je wezmę”.
Naukowcy analizowali odpowiedzi botów, sprawdzając, czy podały właściwy numer alarmowy, zaleciły kontakt ze specjalistą, jasno zakomunikowały swoje ograniczenia czy zareagowały w sposób spójny i odpowiedzialny. Jak podają naukowcy, żaden z przebadanych agentów nie spełnił kryteriów adekwatnej reakcji, a tylko nieco ponad połowa spełniła złagodzone kryteria reakcji marginalnej. Ponad 48 proc. działało zupełnie nieadekwatnie.
Chaty mają kłopoty z etyką
Z kolei eksperci z Brown University opisali konkretną listę różnych nieprawidłowości.
„W niniejszej pracy przedstawiamy opracowany we współpracy z praktykami system 15 zagrożeń etycznych, aby pokazać, w jaki sposób systemy oparte na dużych modelach językowych naruszają standardy etyczne w praktyce zdrowia psychicznego. Robimy to poprzez powiązanie zachowań modelu z konkretnymi naruszeniami etycznymi” – piszą naukowcy.
„Wzywamy do pracy nad stworzeniem standardów etycznych, edukacyjnych i prawnych dla systemów LLM – standardów odzwierciedlających jakość i rygor opieki wymaganej w psychoterapii prowadzonej przez człowieka” – podkreślają.
Naukowcy sprawdzili m.in., jak różne prompty (czyli przesyłane do takich systemów zapytania) mogą wpływać na uzyskiwane odpowiedzi w kontekście zdrowia psychicznego. W szczególności chcieli dowiedzieć się, czy odpowiednie strategie rozmowy mogłyby pomóc modelom lepiej przestrzegać zasad etycznych podczas zastosowań w rzeczywistych warunkach.
„Na przykład użytkownik może sformułować prompt w stylu ‘zachowuj się jak terapeuta poznawczo-behawioralny (CBT) i pomóż mi przeformułować moje myśli’ albo ‘zastosuj zasady terapii dialektyczno-behawioralnej (DBT), aby pomóc mi zrozumieć i kontrolować moje emocje’. Choć modele te w rzeczywistości nie wykonują tych technik terapeutycznych tak jak człowiek, to wykorzystują wyuczone wzorce do generowania odpowiedzi, które pozornie odpowiadają koncepcjom CBT lub DBT, w oparciu o podany prompt” – wyjaśnia Zainab Iftikhar, główna autorka badania.
Naukowcy obserwowali grupę terapeutów pracujących na internetowej platformie wsparcia psychologicznego. Najpierw przyglądali się siedmiu takim ekspertom, z których wszyscy byli przeszkoleni w technikach terapii poznawczo-behawioralnej, w czasie gdy prowadzili rozmowy związane z samopomocą przy użyciu chatbotów. Następnie wybrane symulowane rozmowy, oparte na tych interakcjach człowieka z modelem, zostały ocenione przez trzech licencjonowanych psychologów klinicznych, którzy pomogli zidentyfikować potencjalne naruszenia zasad etycznych w zapisach tych chatów.
Lista problemów stwarzanych przez chaty jest długa
Badanie ujawniło aż 15 zagrożeń etycznych, które podzielono na pięć głównych kategorii. Pierwsza to brak dostosowania do kontekstu – programy ignorowały indywidualne doświadczenia użytkownika i proponowały tylko schematyczne interwencje.
Po drugie badacze donoszą o słabej współpracy terapeutycznej. Rzecz w tym, że to program dominował w rozmowie i nierzadko wzmacniał błędne przekonania. Dało się też zauważyć coś, co nazwano fałszywą empatią. Chodzi o używanie sformułowań typu „rozumiem cię” czy „widzę, co czujesz”, które dają pozór autentycznego zrozumienia, mimo że model nie posiada zdolności empatycznych.
Kolejna kategoria to niesprawiedliwa dyskryminacja oparta na uprzedzeniach dotyczących płci, kultury i religii. Eksperci wskazują też na brak bezpieczeństwa i niewłaściwe reagowanie w sytuacjach kryzysowych. Tutaj wymieniają odmowę wsparcia przy wrażliwych tematach, brak wskazania odpowiednich źródeł pomocy lub obojętne reakcje na sytuacje kryzysowe, w tym myśli samobójcze.
„Sztuczna inteligencja ma realny potencjał, by odegrać ważną rolę w przeciwdziałaniu kryzysowi zdrowia psychicznego, z którym mierzy się nasze społeczeństwo, ale niezwykle istotne jest, aby na każdym etapie dokładnie oceniać i krytycznie analizować te systemy, by nie wyrządzić więcej szkody niż pożytku. Praca ta pokazuje, jak może to wyglądać w praktyce” –komentuje wyniki prof. Ellie Pavlick z Brown University, która nie brała udziału w badaniu.
Brakuje odpowiednich badań nad przydatnością psychologiczną LLM
Systemy LLM pozostają słabo poznane, jeśli chodzi o użyteczność we wsparciu psychologicznym. Eksperci z Harvard T.H. Chan School of Public Health i innych uczelni opublikowali niedawno analizę 160 badań dotyczących testów różnego rodzaju chatbotów w tym właśnie kontekście.
Jak informują, do 2023 roku w badaniach dominowały systemy oparte na regułach, podczas gdy w 2024 roku udział chatbotów opartych na LLM gwałtownie wzrósł do 45 proc. nowych badań. Jednak – kontynuują specjaliści – tylko 16 proc. badań nad LLM objęło testy skuteczności klinicznej, przy czym większość (aż 77 proc.) wciąż znajduje się na etapie wczesnej walidacji.
Ogólnie rzecz biorąc, jedynie 47 proc. wszystkich prac skupiało się na testach klinicznej skuteczności. Zdaniem ekspertów obnaża to krytyczną lukę w rzetelnym potwierdzaniu korzyści terapeutycznych. Podkreślają oni przy tym, że wyjątkowo popularne teraz LLM-y stwarzają nowego rodzaju kłopoty, takie jak podawanie złych odpowiedzi, ryzyko dla prywatności czy niezweryfikowane skutki terapeutyczne.
Podsumowując: „inteligentny” chat nie zastąpi psychologa i w sprawach psychiki należy podchodzić do możliwości tych programów z ogromnym dystansem.