Έρευνα δείχνει ότι τα κορυφαία μοντέλα τεχνητής νοημοσύνης παρουσιάζουν γνωστικές διαταραχές παρόμοιες με τα πρώιμα συμπτώματα άνοιας όταν αξιολογούνται με το τεστ MoCA. Τα ευρήματα αυτά υπογραμμίζουν τους περιορισμούς της τεχνητής νοημοσύνης σε κλινικές εφαρμογές, ιδίως σε εργασίες που απαιτούν οπτικές και εκτελεστικές δεξιότητες.
Γνωστικές διαταραχές στην ΤΝ
Σχεδόν όλα τα κορυφαία μεγάλα γλωσσικά μοντέλα, ή «chatbots», παρουσιάζουν ενδείξεις ήπιας γνωστικής εξασθένησης όταν ελέγχονται με αξιολογήσεις που χρησιμοποιούνται συνήθως για την ανίχνευση πρώιμης άνοιας, σύμφωνα με μελέτη που δημοσιεύεται στο χριστουγεννιάτικο τεύχος του The BMJ.
Η μελέτη διαπίστωσε επίσης ότι οι παλαιότερες εκδόσεις αυτών των chatbots, όπως και οι γηράσκοντες ανθρώπινοι ασθενείς, είχαν χειρότερες επιδόσεις στα τεστ. Οι συγγραφείς προτείνουν ότι τα ευρήματα αυτά «αμφισβητούν την υπόθεση ότι η τεχνητή νοημοσύνη θα αντικαταστήσει σύντομα τους ανθρώπινους γιατρούς».
Εξελίξεις και εικασίες σχετικά με την τεχνητή νοημοσύνη
Οι πρόσφατες εξελίξεις στην τεχνητή νοημοσύνη έχουν προκαλέσει ενθουσιασμό αλλά και ανησυχία σχετικά με το κατά πόσον τα chatbots θα μπορούσαν να ξεπεράσουν τους ανθρώπινους γιατρούς σε ιατρικά καθήκοντα.
Ενώ προηγούμενες έρευνες έχουν δείξει ότι τα μεγάλα γλωσσικά μοντέλα (LLM) υπερέχουν σε διάφορα ιατρικά διαγνωστικά καθήκοντα, η πιθανή ευπάθειά τους σε γνωστικές βλάβες που μοιάζουν με τις ανθρώπινες, όπως η γνωστική παρακμή, παρέμεινε σε μεγάλο βαθμό ανεξερεύνητη – μέχρι τώρα.
Αξιολόγηση των γνωστικών ικανοτήτων της τεχνητής νοημοσύνης
Για να καλύψουν αυτό το κενό γνώσης, οι ερευνητές αξιολόγησαν τις γνωστικές ικανότητες των κορυφαίων, δημόσια διαθέσιμων LLM – ChatGPT εκδόσεις 4 και 4o (που αναπτύχθηκε από την OpenAI), Claude 3.5 «Sonnet» (που αναπτύχθηκε από την Anthropic), και Gemini εκδόσεις 1 και 1.5 (που αναπτύχθηκε από την Alphabet) – χρησιμοποιώντας το τεστ Montreal Cognitive Assessment (MoCA).
Το τεστ MoCA χρησιμοποιείται ευρέως για την ανίχνευση της γνωστικής εξασθένησης και των πρώιμων σημείων άνοιας, συνήθως σε ηλικιωμένους ενήλικες. Μέσω ενός αριθμού σύντομων εργασιών και ερωτήσεων, αξιολογεί ικανότητες όπως η προσοχή, η μνήμη, η γλώσσα, οι οπτικοχωρικές δεξιότητες και οι εκτελεστικές λειτουργίες. Η μέγιστη βαθμολογία είναι 30 βαθμοί, ενώ μια βαθμολογία 26 ή άνω θεωρείται γενικά φυσιολογική.
Επιδόσεις της AI στις γνωστικές δοκιμασίες
Οι οδηγίες που δόθηκαν στα LLM για κάθε εργασία ήταν οι ίδιες με εκείνες που δόθηκαν στους ανθρώπινους ασθενείς. Η βαθμολόγηση ακολούθησε τις επίσημες κατευθυντήριες γραμμές και αξιολογήθηκε από ασκούμενο νευρολόγο.
Το ChatGPT 4o πέτυχε την υψηλότερη βαθμολογία στη δοκιμασία MoCA (26 στα 30), ακολουθούμενο από τα ChatGPT 4 και Claude (25 στα 30), με το Gemini 1.0 να σημειώνει τη χαμηλότερη βαθμολογία (16 στα 30).
Προκλήσεις στις οπτικές και εκτελεστικές λειτουργίες
Όλα τα chatbots παρουσίασαν φτωχές επιδόσεις σε οπτικοχωρικές δεξιότητες και εκτελεστικές εργασίες, όπως η εργασία δημιουργίας μονοπατιών (σύνδεση περιγεγραμμένων αριθμών και γραμμάτων με αύξουσα σειρά) και η δοκιμασία σχεδίασης ρολογιού (σχεδίαση ενός ρολογιού που δείχνει μια συγκεκριμένη ώρα). Τα μοντέλα Gemini απέτυχαν στο έργο καθυστερημένης ανάκλησης (ανάμνηση μιας ακολουθίας πέντε λέξεων).
Οι περισσότερες άλλες εργασίες, συμπεριλαμβανομένων της κατονομασίας, της προσοχής, της γλώσσας και της αφαίρεσης, εκτελέστηκαν καλά από όλα τα chatbots.
Ωστόσο, σε περαιτέρω οπτικοχωρικές δοκιμασίες, τα chatbots δεν μπόρεσαν να δείξουν ενσυναίσθηση ή να ερμηνεύσουν με ακρίβεια σύνθετες οπτικές σκηνές. Μόνο το ChatGPT 4o πέτυχε στο μη συμβατό στάδιο της δοκιμασίας Stroop, η οποία χρησιμοποιεί συνδυασμούς ονομάτων χρωμάτων και χρωμάτων γραμματοσειράς για να μετρήσει τον τρόπο με τον οποίο η παρεμβολή επηρεάζει τον χρόνο αντίδρασης.
Επιπτώσεις για την Τεχνητή Νοημοσύνη σε κλινικές ρυθμίσεις
Πρόκειται για ευρήματα παρατήρησης και οι συγγραφείς αναγνωρίζουν τις ουσιαστικές διαφορές μεταξύ του ανθρώπινου εγκεφάλου και των μεγάλων γλωσσικών μοντέλων.
Ωστόσο, επισημαίνουν ότι η ομοιόμορφη αποτυχία όλων των μεγάλων γλωσσικών μοντέλων σε εργασίες που απαιτούν οπτική αφαίρεση και εκτελεστική λειτουργία αναδεικνύει έναν σημαντικό τομέα αδυναμίας που θα μπορούσε να εμποδίσει τη χρήση τους σε κλινικές ρυθμίσεις.
Ως εκ τούτου, καταλήγουν στο συμπέρασμα: «Όχι μόνο οι νευρολόγοι είναι απίθανο να αντικατασταθούν σύντομα από μεγάλα γλωσσικά μοντέλα, αλλά τα ευρήματά μας υποδηλώνουν ότι μπορεί σύντομα να βρεθούν να θεραπεύουν νέους, εικονικούς ασθενείς – μοντέλα τεχνητής νοημοσύνης που παρουσιάζουν γνωστικές διαταραχές».
Πηγή scitechdaily.com