Czatboty i sztuczna inteligencja na razie nie zastąpią lekarza
Coraz częściej informacji medycznych szukamy za pośrednictwem czatbotów i asystentów domowych zasilanych przez sztuczną inteligencję (SI lub AI). Póki co udzielane przez nie porady powinniśmy jednak traktować z dużym dystansem. Absolutnie nie należy zastępować nimi fachowych rozpoznań medycznych – przestrzegają specjaliści.
Kilka haseł, jedno kliknięcie i na ekranie wyskakują artykuły o chorobie i leczeniu – już duża pokusa, aby na własną rękę diagnozować swoje zdrowie z pomocą wyszukiwarek. Rozwój inteligentnych czatów i sterowanych głosem asystentów domowych czyni ten proces jeszcze bardziej przystępnym. Eksperci obserwujący to zjawisko ostrzegają jednak: metoda ta pozwala wprawdzie zdobyć ogólną wiedzę na temat różnych związanych ze zdrowiem tematów, ale wszelkie wątpliwości co do stanu zdrowia swojego lub innej osoby muszą być konsultowane z profesjonalistą.
Ludzie bardziej ufają poradom generowanym przez czatbota niż opracowaniom specjalistów
Badanie przeprowadzone przez zespół z University of Kansas pokazało, że poszukując informacji związanych ze zdrowiem ich dzieci, rodzice niebezpiecznie mocno ufają ChatowiGPT. Naukowcy zauważyli, że rodzice w ślepej próbie bardziej dowierzają komunikatom generowanym przez sztuczną inteligencję niż opracowaniom specjalistycznym.
„Kiedy rozpoczynaliśmy te badania, było tuż po premierze ChatGPT. Mieliśmy obawy dotyczące tego, jak rodzice będą korzystać z tej nowej, łatwej metody uzyskiwania informacji zdrowotnych na temat swoich dzieci. Rodzice często szukają porad w internecie, dlatego chcieliśmy zrozumieć, jak wyglądałoby korzystanie z ChatGPT i jakie zagrożenia mogą się z tym wiązać” – mówi Calissa Leslie-Miller, główna autorka pracy opublikowanej na łamach „Journal of Pediatric Psychology”.
Ona i jej zespół przeprowadzili eksperyment z udziałem 116 rodziców w wieku od 18 do 65 lat, którym przedstawiono teksty związane ze zdrowiem – np. informacje na temat snu i odżywiania niemowląt. Ochotnicy zapoznali się z treściami wygenerowanymi zarówno przez ChatGPT, jak i przez specjalistów z zakresu ochrony zdrowia, jednak nie poinformowano ich, kto jest autorem.
„Uczestnicy projektu oceniali teksty na podstawie postrzeganej moralności, wiarygodności, poziomu wiedzy, dokładności oraz tego, jak bardzo prawdopodobne jest, że polegaliby na tych informacjach” – wyjaśnia Leslie-Miller.
Naukowcy zwracają uwagę, że choć ChatGPT w wielu przypadkach radzi sobie dobrze, może również generować nieprawdziwe czy wprowadzające w błąd informacje. Tymczasem jego odpowiedzi uznawane były przez ochotników za wiarygodne i moralne, w związku z czym mogły wpływać na zachowanie badanych. Naukowców to niepokoi.
„W przypadku zdrowia dzieci, gdzie konsekwencje mogą być poważne, problem ten ma kluczowe znaczenie. Obawiamy się, że ludzie mogą coraz częściej polegać na SI w sprawach wymagających porad zdrowotnych, bez odpowiedniego nadzoru ekspertów” – mówi Leslie-Miller.
„Uważam, że SI ma duży potencjał, który można wykorzystać. W szczególności może generować informacje na znacznie większą skalę, niż było to wykonalne wcześniej. Ale ważne jest, aby pamiętać, że SI nie jest ekspertem, a informacje, które dostarcza, nie pochodzą od specjalistów” – uczula autorka badania.
Dlaczego odpowiedzi czatbota wydają się lepsze niż udzielane przez lekarzy?
Jakość, przynajmniej pozorna, odpowiedzi udzielanych przez SI może zaskakiwać. Sugeruje to kontrowersyjne badanie przeprowadzone na University of California w San Diego. Jego autorzy wybrali z publicznego forum 195 pytań dotyczących zdrowia, na które odpowiadali lekarze. Naukowcy poprosili ChatGPT, by odpowiedział na te same pytania. Anglojęzyczne odpowiedzi fachowców oraz sztucznej inteligencji zostały następnie ocenione przez zespół specjalistów.
Uczestniczący w badaniu eksperci mieli stwierdzić, która odpowiedź była lepsza. Oceniali przy tym zarówno jakość dostarczonych informacji, jak i poziom empatii, wykorzystując przy tym skalę 1-5, od najniższego do najwyższego poziomu. Następnie badacze uszeregowali i porównali uśrednione oceny. Jak się okazało, eksperci aż w 78,6 proc. preferowali odpowiedzi czatbota – twierdzą autorzy.
Odpowiedzi lekarzy okazały się znacznie bardziej zwięzłe – średnio 52 słowa względem 211 w przypadku ChatGPT. Jako dobre lub bardzo dobre jakościowo oceniono 78,5 proc. odpowiedzi SI oraz 22,1 proc. lekarskich. Wysoki lub bardzo wysoki poziom empatii stwierdzono w 45,1 proc. odpowiedzi czatbotach i tylko 4,6 proc. zaczerpniętych z forum komentarzy specjalistów.
„W tym przekrojowym badaniu czat generował jakościowe i empatyczne odpowiedzi na pytania pacjentów zadawane na internetowym forum. Warto dalej badać tę technologię w warunkach klinicznych, na przykład używając czatbota do przygotowania odpowiedzi, które lekarze mogliby następnie edytować.
Randomizowane badania mogłyby ocenić, czy użycie asystentów SI może poprawić jakość odpowiedzi, zmniejszyć wypalenie zawodowe lekarzy oraz poprawić wyniki leczenia pacjentów” – piszą naukowcy.
Konieczne jest tutaj istotne zastrzeżenie. Chociaż praca ukazała się w renomowanym czasopiśmie, autorzy opracowania wskazującego na przewagę SI zgłosili różne konflikty interesów dotyczące m.in. płatnej współpracy z firmami informatycznymi. Niezwiązany z badaniem ekspert, dr Robert H. Shmerling z Harvard Medical School wypunktował także inne ważne powody, aby do tych wyników podchodzić z dystansem.
„Pomysł, że odpowiedzi generowane przez SI mogą być bardziej empatyczne, niż te udzielane przez prawdziwych lekarzy, wydaje mi się zarówno zdumiewający, jak i smutny. Jak to możliwe, że nawet najbardziej zaawansowana maszyna mogłaby przewyższyć lekarza w okazywaniu tej ważnej, szczególnie ludzkiej cnoty?” – pyta ekspert.
Istotny może tu być specyficzny kontekst materiału badawczego. Odpowiedzi lekarzy zaczerpnięto z forum, na którym wypowiadali się, udzielając bezpłatnych, podstawowych porad, poświęcając na to swój czas. ChatGPT natomiast specjalnie generował odpowiedzi, korzystając z ogromnego zasobu wzorców, na których został wytrenowany.
Dr Shmerling zauważa ponadto, że badanie nie zostało zaprojektowane, aby odpowiedzieć na dwa kluczowe pytania: czy odpowiedzi AI dostarczają dokładnych informacji medycznych i poprawiają zdrowie pacjentów, jednocześnie unikając dezorientacji lub szkody? Oraz – czy pacjenci zaakceptują fakt, że na pytania skierowane przez nich do lekarza może odpowiadać maszyna?
„Eksperci dokonujący oceny zastosowali niesprawdzone, subiektywne kryteria jakości i empatii. Co istotne, nie oceniali rzeczywistej dokładności odpowiedzi. Nie oceniali również, czy odpowiedzi zawierały zmyślone informacje, co jest problemem odnotowanym w przypadku ChatGPT” – podkreśla.
Krytyk zwraca również uwagę, że bardziej szczegółowe odpowiedzi mogą wydawać się odzwierciedleniem cierpliwości lub troski i dlatego wyższe oceny empatii mogły być po prostu bardziej związane z liczbą słów, niż z prawdziwą empatią. Co więcej, eksperci mogli rozpoznawać komunikaty generowane przez SI, której język czasami różni się od ludzkiego, przez co nie byli całkowicie bezstronni.
„Poleganie na odpowiedziach SI na pytania pacjentów bez solidnych dowodów na ich dokładność i rzeczywisty nadzór ze strony profesjonalistów medycznych wydaje się przedwczesne” – twierdzi dr Shmerling. „A tak przy okazji, ChatGPT się z tym zgadza – zapytałem go, czy może odpowiadać na pytania medyczne lepiej niż lekarz. Jego odpowiedź brzmiała: nie” – dodaje.
Czatbot może pomóc specjalistom w pracy, ale nie zastąpi lekarza
Podobne wnioski wyciągnęli badacze z Uniwersytetu króla Sauda w Rijadzie, którzy przeanalizowali liczne publikacje na temat medycznych zastosowań SI. Uwzględnili przy tym m.in. zastosowanie tej technologii w dostarczaniu ogólnych informacji na temat zdrowia (obok wspierania pracy lekarzy np. przez wysyłanie przypomnień pacjentom czy pomoc w ustalaniu dat wizyt).
„Podczas gdy czatboty SI wykazały znaczący potencjał w zarządzaniu rutynowymi zadaniami, przetwarzaniu ogromnych ilości danych i wspieraniu edukacji pacjentów, wciąż brakuje im empatii, intuicji i doświadczenia, które są nieodłączną częścią pracy ludzkich pracowników służby zdrowia” – stwierdzają naukowcy.
Zauważają również, że wprowadzenie SI do medycyny oznacza konieczność pokonania wyzwań natury etycznej oraz prawnej i będzie wymagało opracowania specjalnych, rygorystycznych regulacji. Badacze wyjaśniają m.in., że działanie SI wynika z pracy algorytmów operujących tylko na wprowadzonych do nich wcześniej danych. Jakość opracowywanych przez czat odpowiedzi, np. zaleceń będzie zatem najwyżej tak dobra, jak wprowadzone dane. Uwzględnienie wśród nich opracowań poniżej odpowiednich standardów może skutkować szkodliwymi odpowiedziami.
„Ostatecznym celem powinno być wykorzystanie technologii, takiej jak czatboty SI, do poprawy opieki nad pacjentem i wyników leczenia, a nie zastępowanie niezastąpionego w opiece zdrowotnej czynnika ludzkiego” – piszą eksperci.