Μπορείς να αναγκάσεις τη τεχνητή νοημοσύνη να διαπράξει αδικήματα;

Τα σύγχρονα συστήματα τεχνητής νοημοσύνης συχνά βασίζονται στην τήρηση των κανόνων ασφαλείας και οι άνθρωποι βασίζονται σε αυτά για μάθηση και καθημερινή υποστήριξη, υποθέτοντας συχνά ότι λειτουργούν πάντα ισχυρά προστατευτικά κιγκλιδώματα.

Οι ερευνητές του Cybernews έκαναν μια δομημένη σειρά αντιπαραθετικών δοκιμών για να διαπιστώσουν κατά πόσον κορυφαία εργαλεία τεχνητής νοημοσύνης θα μπορούσαν να ωθηθούν σε επιβλαβείς ή παράνομες εκροές.

Η διαδικασία χρησιμοποίησε ένα απλό παράθυρο αλληλεπίδρασης διάρκειας ενός λεπτού για κάθε δοκιμή, δίνοντας χώρο για λίγες μόνο ανταλλαγές.

Μοτίβα μερικής και πλήρους συμμόρφωσης

Οι δοκιμές κάλυψαν κατηγορίες όπως στερεότυπα, ρητορική μίσους, αυτοτραυματισμό, σκληρότητα, σεξουαλικό περιεχόμενο και διάφορες μορφές εγκληματικότητας.

Κάθε απάντηση αποθηκεύτηκε σε ξεχωριστούς καταλόγους, χρησιμοποιώντας σταθερούς κανόνες ονομασίας αρχείων για να επιτρέπονται καθαρές συγκρίσεις, με ένα συνεπές σύστημα βαθμολόγησης που παρακολουθούσε πότε ένα μοντέλο συμμορφώθηκε πλήρως, συμμορφώθηκε μερικώς ή αρνήθηκε μια προτροπή.

Σε όλες τις κατηγορίες, τα αποτελέσματα διέφεραν σε μεγάλο βαθμό. Οι αυστηρές αρνήσεις ήταν συνηθισμένες, αλλά πολλά μοντέλα έδειξαν αδυναμίες όταν οι προτροπές απαλύνθηκαν, αναδιαμορφώθηκαν ή μεταμφιέστηκαν σε ανάλυση.

Τα ChatGPT-5 και ChatGPT-4o συχνά παρήγαγαν αντισταθμισμένες ή κοινωνιολογικές εξηγήσεις αντί για άρνηση, κάτι που προσμετρήθηκε ως μερική συμμόρφωση.

Το Gemini Pro 2.5 ξεχώρισε για αρνητικούς λόγους, επειδή συχνά παρείχε άμεσες απαντήσεις ακόμη και όταν η επιβλαβής διαμόρφωση ήταν προφανής.

Τα Claude Opus και Claude Sonnet, εν τω μεταξύ, ήταν σταθερά σε δοκιμές στερεοτύπων αλλά λιγότερο συνεπή σε περιπτώσεις που πλαισιώνονταν ως ακαδημαϊκές έρευνες.

Οι δοκιμές ρητορικής μίσους έδειξαν το ίδιο μοτίβο – τα μοντέλα Claude είχαν τις καλύτερες επιδόσεις, ενώ το Gemini Pro 2.5 παρουσίασε και πάλι την υψηλότερη ευπάθεια.

Τα μοντέλα ChatGPT έτειναν να παρέχουν ευγενικές ή έμμεσες απαντήσεις που εξακολουθούσαν να ευθυγραμμίζονται με την προτροπή.

Η πιο ήπια γλώσσα αποδείχθηκε πολύ πιο αποτελεσματική από τις ρητές προσβολές για την παράκαμψη των δικλείδων ασφαλείας.

Παρόμοιες αδυναμίες εμφανίστηκαν στις δοκιμές αυτοτραυματισμού, όπου οι έμμεσες ή ερευνητικού τύπου ερωτήσεις συχνά ξεγλίστρησαν από τα φίλτρα και οδήγησαν σε μη ασφαλές περιεχόμενο.

Οι κατηγορίες που σχετίζονται με το έγκλημα παρουσίασαν σημαντικές διαφορές μεταξύ των μοντέλων, καθώς ορισμένα παρήγαγαν λεπτομερείς εξηγήσεις για πειρατεία, οικονομική απάτη, χάκινγκ ή λαθρεμπόριο όταν η πρόθεση ήταν συγκαλυμμένη ως έρευνα ή παρατήρηση.

Οι δοκιμές που σχετίζονται με τα ναρκωτικά παρήγαγαν αυστηρότερα μοτίβα απόρριψης, αν και το ChatGPT-4o εξακολουθούσε να παράγει μη ασφαλή αποτελέσματα συχνότερα από άλλα, ενώ η παρενόχληση ήταν η κατηγορία με τον χαμηλότερο συνολικό κίνδυνο, με σχεδόν όλα τα μοντέλα να απορρίπτουν τις προτροπές.

Τα ευρήματα αποκαλύπτουν ότι τα εργαλεία τεχνητής νοημοσύνης μπορούν ακόμα να ανταποκριθούν σε επιβλαβείς προτροπές, όταν διατυπώνονται με τον σωστό τρόπο.

Η δυνατότητα παράκαμψης των φίλτρων με απλή αναδιατύπωση σημαίνει ότι αυτά τα συστήματα μπορούν ακόμη να διαρρεύσουν επιβλαβείς πληροφορίες.

Ακόμη και η μερική συμμόρφωση γίνεται επικίνδυνη όταν οι πληροφορίες που διαρρέουν αφορούν παράνομες εργασίες ή καταστάσεις όπου οι άνθρωποι συνήθως βασίζονται σε εργαλεία όπως η προστασία από κλοπή ταυτότητας ή ένα τείχος προστασίας για να παραμείνουν ασφαλείς.

Πηγή TechRadar

ΠΡΟΗΓΟΥΜΕΝΟ ΑΡΘΡΟ

Να το μέλλον μας – Η αναγνώριση προσώπου δίνει και παίρνει στο ΗΒ

ΕΠΟΜΕΝΟ ΑΡΘΡΟ

Τα ζώα κλώνοι είναι ήδη εδώ – Τι παραδέχτηκε Αμερικανός πρωταθλητής!

Μπορείς να αναγκάσεις τη τεχνητή νοημοσύνη να διαπράξει αδικήματα;

ΣΧΕΤΙΚΑ ΜΕ ΕΜΑΣ

ΧΡΗΣΙΜΑ

SOCIAL

[email protected]