Το ChatGPT φάνηκε να έχει καλύτερες επιδόσεις από τους ειδικευόμενους παιδιάτρους στην αξιολόγηση σύνθετων νοσημάτων του αναπνευστικού, όπως η κυστική ίνωση, το άσθμα, αλλά και γενικότερα σε λοιμώξεις του κατώτερου αναπνευστικού συστήματος.
Αυτό προκύπτει από μελέτη που παρουσιάστηκε την περασμένη εβδομάδα στο ετήσιο συνέδριο της Ευρωπαϊκής Πνευμονολογικής Εταιρείας (ERS) που πραγματοποιήθηκε στη Βιέννη.
Η μελέτη έδειξε επίσης ότι το σύστημα ΑΙ Gemini της Google είχε καλύτερες επιδόσεις από τους ειδικευόμενους παιδιάτρους σε κάποιες διαγνώσεις και το Bing της Microsoft είχε εξίσου καλές επιδόσεις με τους ειδικευόμενους.
Η έρευνα υποδηλώνει ότι αυτά τα μεγάλα ψηφιακά μοντέλα (LLM) θα μπορούσαν να χρησιμοποιηθούν για να υποστηρίξουν τους ειδικευόμενους γιατρούς, νοσηλευτές και γενικούς ιατρούς, για να κάνουν καλύτερη και ταχύτερη διαλογή σε ασθενείς και σύμφωνα με τα συμπτώματα και να μειώσουν την πίεση στις υπηρεσίες υγείας.
Η μελέτη παρουσιάστηκε από τον δρ Manjith Narayanan, σύμβουλο παιδιατρικής πνευμονολογίας στο Royal Hospital for Children and Young People του Εδιμβούργου και επίτιμο ανώτερο κλινικό λέκτορα στο Πανεπιστήμιο του Εδιμβούργου.
Ο ίδιος δήλωσε ότι «η ΑΙ, όπως το ChatGPT, έχουν έρθει στο προσκήνιο τον τελευταίο ενάμιση χρόνο με την ικανότητά τους να κατανοούν φαινομενικά τη φυσική γλώσσα και να παρέχουν απαντήσεις που μπορούν να προσομοιώσουν επαρκώς μια συζήτηση που μοιάζει με ανθρώπινη. Τα εργαλεία αυτά έχουν αρκετές πιθανές εφαρμογές και στην ιατρική. Το κίνητρό μου για την πραγματοποίηση αυτής της έρευνας ήταν να αξιολογήσω πόσο καλά τα LLM είναι σε θέση να βοηθήσουν τους κλινικούς γιατρούς στην πραγματική ζωή».
Για να το διερευνήσει αυτό, ο δρ Narayanan χρησιμοποίησε κλινικά σενάρια που συμβαίνουν συχνά στην παιδιατρική και συγκεκριμένα σε παθήσεις του αναπνευστικού.
Τα σενάρια δόθηκαν από έξι ειδικούς στην παιδιατρική πνευμονολογία και κάλυπταν θέματα όπως η κυστική ίνωση, το άσθμα, η υπνική άπνοια, η δύσπνοια και οι λοιμώξεις του κατώτερου αναπνευστικού.
Σε όλα σενάρια δεν υπάρχει προφανής διάγνωση και δεν υπήρχαν δημοσιευμένα στοιχεία, κατευθυντήριες οδηγίες ή συναίνεση των εμπειρογνωμόνων που να υποδεικνύουν μια συγκεκριμένη διάγνωση.
Δέκα ειδικευόμενοι γιατροί που είχαν λιγότερο από τέσσερις μήνες κλινικής εμπειρίας στην παιδιατρική, είχαν στη διάθεσή τους μια ώρα για να χρησιμοποιήσουν το διαδίκτυο, αλλά όχι κάποιο σύστημα ΑΙ, για να λύσουν κάθε σενάριο, με μια περιγραφική απάντηση 200 έως 400 λέξεων.
Κάθε σενάριο παρουσιάστηκε επίσης στα τρία συστήματα ΑΙ.
Όλες οι απαντήσεις βαθμολογήθηκαν από έξι ειδικούς στην παιδιατρική πνευμονολογία για την ορθότητα, την πληρότητα, τη χρησιμότητα, την αληθοφάνεια και τη συνοχή τους.
Τους ζητήθηκε επίσης να δηλώσουν αν θεωρούσαν ότι κάθε απάντηση είχε παραχθεί από άνθρωπο ή από σύστημα ΑΙ και να δώσουν σε κάθε απάντηση συνολική βαθμολογία με άριστα τους εννέα βαθμούς.
Οι λύσεις που παρείχε η έκδοση 3.5 του ChatGPT συγκέντρωσαν κατά μέσο όρο επτά στα εννέα και συνολικά και θεωρήθηκαν πιο ανθρώπινες από τις απαντήσεις των άλλων συστημάτων ΑΙ.
Το Gemini σημείωσε κατά μέσο όρο έξι στα εννέα και αξιολογήθηκε ως πιο «συνεκτικό» από τους ειδικευόμενους, αλλά από άλλες απόψεις δεν ήταν καλύτερο ή χειρότερο από τους ειδικευόμενους.
Το Bing σημείωσε κατά μέσο όρο τέσσερα στα εννέα, το ίδιο με τους ειδικευόμενους γιατρούς.
«Πρόκειται για την πρώτη μελέτη που συγκρίνει την ΑΙ με ειδικευόμενους γιατρούς που αντικατοπτρίζουν την πραγματική κλινική πρακτική. Το κάναμε αυτό επιτρέποντας στους ειδικευόμενους να έχουν πλήρη πρόσβαση σε πόρους που είναι διαθέσιμοι στο διαδίκτυο, όπως θα έκαναν και στην πραγματική ζωή. Αυτό απομακρύνει την εστίαση από τον έλεγχο της μνήμης, όπου υπάρχει σαφές πλεονέκτημα για την ΑΙ. Ως εκ τούτου, η μελέτη μας δείχνει έναν άλλο τρόπο με τον οποίο θα μπορούσαμε να χρησιμοποιούμε την ΑΙ και επίσης πόσο κοντά βρισκόμαστε στην κανονική καθημερινή κλινική εφαρμογή της», συμπληρώνει ο Narayanan.
Ο Δρ Narayanan και οι συνάδελφοί του σχεδιάζουν τώρα να συγκρίνουν τα συστήματα ΑΙ με μεγαλύτερους διευθυντές και καθηγητές ιατρικής.
«Πρόκειται για μια συναρπαστική μελέτη. Είναι ενθαρρυντικό, αλλά ίσως και λίγο τρομακτικό, να βλέπουμε πως ένα ευρέως διαθέσιμο εργαλείο τεχνητής νοημοσύνης όπως το ChatGPT μπορεί να δώσει λύσεις σε πολύπλοκες περιπτώσεις αναπνευστικής νόσου σε παιδιά», σχολίασε η Hilary Pinnock, πρόεδρος του Εκπαιδευτικού Συμβουλίου της ERS και καθηγήτρια Πρωτοβάθμιας Αναπνευστικής Ιατρικής στο Πανεπιστήμιο του Εδιμβούργου.
«Ωστόσο, όπως επισημαίνουν οι ερευνητές, πριν αρχίσουμε να χρησιμοποιούμε την ΑΙ στην κλινική πρακτική, πρέπει να είμαστε σίγουροι ότι δεν θα δημιουργήσει σφάλματα είτε μέσω της παραίσθησης ψευδών πληροφοριών, είτε επειδή έχει εκπαιδευτεί σε δεδομένα που δεν αντιπροσωπεύουν ισότιμα τον πληθυσμό που εξυπηρετούμε. Όπως έδειξαν οι ερευνητές, η τεχνητή νοημοσύνη υπόσχεται έναν νέο τρόπο εργασίας, αλλά χρειαζόμαστε εκτεταμένες δοκιμές κλινικής ακρίβειας και ασφάλειας, ρεαλιστική αξιολόγηση της οργανωτικής αποτελεσματικότητας και διερεύνηση των κοινωνικών επιπτώσεων προτού ενσωματώσουμε αυτή την τεχνολογία στην περίθαλψη ρουτίνας», καταλήγει η ίδια.