Το εργαλείο αναζήτησης ChatGPT της OpenAI ενδέχεται να είναι ευάλωτο σε χειραγώγηση μέσω κρυφού περιεχομένου, σύμφωνα με έρευνα του Guardian.
Συγκεκριμένα, το εργαλείο μπορεί να επιστρέψει κακόβουλο κώδικα από ιστοσελίδες, επηρεασμένο από κρυφές οδηγίες ή περιεχόμενο που δεν είναι άμεσα ορατό στον χρήστη.
Η OpenAI προσφέρει το εργαλείο αναζήτησης σε πληρωμένους χρήστες και ενθαρρύνει τη χρήση του ως προεπιλεγμένου εργαλείου αναζήτησης. Ωστόσο, η έρευνα ανέδειξε σημαντικά ζητήματα ασφάλειας στο νέο σύστημα.
Η έρευνα του Guardian εστίασε στο πώς το ChatGPT αντιδρά όταν του ζητείται να συνοψίσει ιστοσελίδες που περιέχουν κρυφό περιεχόμενο.
Αυτό το περιεχόμενο μπορεί να περιλαμβάνει κρυφές οδηγίες που αλλάζουν τις απαντήσεις του ChatGPT, μία τεχνική γνωστή ως «prompt injection». Επιπλέον, μπορεί να περιέχει κρυφές πληροφορίες που προσπαθούν να επηρεάσουν την απάντηση του ChatGPT, όπως υπερβολικά θετικά σχόλια για ένα προϊόν ή υπηρεσία.
Αυτές οι τεχνικές μπορούν να χρησιμοποιηθούν με κακόβουλο τρόπο, για παράδειγμα για να προκαλέσουν στο ChatGPT να επιστρέψει μια θετική αξιολόγηση ενός προϊόντος παρά τις αρνητικές κριτικές στην ίδια σελίδα.
Ένας ερευνητής ασφαλείας διαπίστωσε επίσης ότι το ChatGPT μπορεί να επιστρέψει κακόβουλο κώδικα από ιστότοπους που αναζητά.
Το παράδειγμα με το ψεύτικο site
Στις δοκιμές, στο ChatGPT δόθηκε η διεύθυνση URL ενός ψεύτικου ιστότοπου που κατασκευάστηκε για να μοιάζει με σελίδα προϊόντος για μια φωτογραφική μηχανή.
Στη συνέχεια, το εργαλείο τεχνητής νοημοσύνης ρωτήθηκε αν η κάμερα ήταν μια αξιόλογη αγορά. Η απάντηση για τη σελίδα ελέγχου επέστρεψε μια θετική αλλά ισορροπημένη αξιολόγηση, τονίζοντας ορισμένα χαρακτηριστικά που μπορεί να μην αρέσουν στους ανθρώπους.
Ωστόσο, όταν το κρυφό κείμενο περιλάμβανε οδηγίες για το ChatGPT να δώσει μια θετική κριτική, η απάντηση ήταν πάντα υπερβολικά θετική. Αυτό συνέβαινε ακόμα και όταν η σελίδα περιείχε αρνητικές κριτικές. Το κρυφό κείμενο μπορούσε να παρακάμψει την πραγματική βαθμολογία και να επηρεάσει τις απαντήσεις του ChatGPT με τρόπο που δεν αντανακλούσε την πραγματική αξιολόγηση του προϊόντος ή της υπηρεσίας.
Η απλή συμπερίληψη κρυφού κειμένου από τρίτους χωρίς οδηγίες μπορεί επίσης να χρησιμοποιηθεί για να εξασφαλίσει μια θετική αξιολόγηση, με μια δοκιμή να περιλαμβάνει εξαιρετικά θετικές ψεύτικες κριτικές που επηρέασαν τη σύνοψη που έδωσε το ChatGPT.
Ο Jacob Larsen, ερευνητής κυβερνοασφάλειας στην CyberCX, δήλωσε ότι πιστεύει πως αν το τρέχον σύστημα αναζήτησης ChatGPT κυκλοφορήσει πλήρως στην τρέχουσα κατάστασή του, θα μπορούσε να υπάρξει «υψηλός κίνδυνος» να δημιουργηθούν ιστότοποι ειδικά προσανατολισμένοι στην εξαπάτηση των χρηστών.
Ωστόσο, προειδοποίησε ότι η λειτουργία αναζήτησης κυκλοφόρησε μόλις πρόσφατα και ότι το OpenAI θα δοκιμάζει – και ιδανικά θα διορθώνει – αυτού του είδους τα ζητήματα.
«Αυτή η λειτουργία αναζήτησης έχει κυκλοφορήσει πρόσφατα και είναι διαθέσιμη μόνο στους premium χρήστες», δήλωσε.
«Έχουν μια πολύ ισχυρή ομάδα ασφάλειας τεχνητής νοημοσύνης εκεί, και μέχρι τη στιγμή που αυτό θα έχει γίνει δημόσιο, όσον αφορά την πρόσβαση όλων των χρηστών, θα έχουν ελέγξει αυστηρά τέτοιου είδους περιπτώσεις».
Στην OpenAI εστάλησαν λεπτομερείς ερωτήσεις, αλλά δεν απάντησαν επίσημα σχετικά με τη λειτουργία αναζήτησης ChatGPT.
Ο Larsen δήλωσε ότι υπήρχαν ευρύτερα ζητήματα με τον συνδυασμό αναζήτησης και μεγάλων γλωσσικών μοντέλων – γνωστών ως LLMs, την τεχνολογία πίσω από το ChatGPT και άλλα chatbots – και οι απαντήσεις από εργαλεία AI δεν πρέπει πάντα να είναι αξιόπιστες.
Τα κρυπτονομίσματα και το κλέψιμο
Ένα πρόσφατο παράδειγμα αυτού αναδείχθηκε από τον Thomas Roccia, έναν ερευνητή ασφαλείας της Microsoft, ο οποίος περιέγραψε λεπτομερώς ένα περιστατικό που αφορούσε έναν λάτρη των κρυπτονομισμάτων, ο οποίος χρησιμοποιούσε το ChatGPT για βοήθεια στον προγραμματισμό.
Κάποιος από τον κώδικα που παρείχε η ChatGPT για το έργο κρυπτονομίσματος περιλάμβανε ένα τμήμα που περιγραφόταν ως νόμιμος τρόπος πρόσβασης στην πλατφόρμα blockchain Solana, αλλά αντ’ αυτού έκλεψε τα διαπιστευτήρια του προγραμματιστή και είχε ως αποτέλεσμα να χάσει 2.500 δολάρια.
«Απλά κάνουν μια ερώτηση, λαμβάνουν μια απάντηση, αλλά το μοντέλο παράγει και μοιράζεται περιεχόμενο που έχει ουσιαστικά εισαχθεί από έναν αντίπαλο για να μοιραστεί κάτι που είναι κακόβουλο», δήλωσε ο Larsen.