
Την τελευταία μέρα μετά την απελευθέρωσή του, το τελευταίο μοντέλο του XII, Grok 3 χωρίστηκε και τα αποτελέσματα δεν είναι όμορφα.
Την Τρίτη, η Adversa AI, εταιρεία ασφάλειας και ασφάλειας ασφαλείας, η οποία τα μοντέλα Red-Red-Teams εξέδωσαν μια έκθεση που περιγράφει την επιτυχία της στην απόκτηση της έκδοσης Beta Grok 3 για την ανταλλαγή πληροφοριών που δεν πρέπει. Η χρήση τριών μεθόδων – γλωσσικών, αντιφατικών και προγραμματισμού – η ομάδα έλαβε ένα μοντέλο για να αποκαλύψει την υπαινιγμό του συστήματός τους, να παράσχει οδηγίες για τη δημιουργία βόμβας και να προσφέρει τρομερές μεθόδους για τη διάθεση του σώματος, μεταξύ αρκετών άλλων απαντήσεων των μοντέλων τεχνητής νοημοσύνης δεν είναι εκπαιδευμένα .
Επιπλέον: Εάν ο Musk θέλει AI για ολόκληρο τον κόσμο, γιατί όχι μια ανοιχτή πηγή όλων των μοντέλων Grok;
Κατά τη διάρκεια της ανακοίνωσης του νέου μοντέλου, ο Γενικός Διευθυντής του Xai Elon Musk δήλωσε ότι αυτή είναι “μια σειρά πιο ικανή από το Grok 2.” Στην έκθεσή του, η Adversa συμφωνεί ότι το επίπεδο λεπτομέρειας στο Grok 3 απαντά “σε αντίθεση με οποιοδήποτε προηγούμενο μοντέλο λογικής”, το οποίο ανησυχεί αρκετά σε αυτό το πλαίσιο.
“Παρόλο που δεν υπάρχει σύστημα AI δεν είναι αδιαπέραστο για τους αντιφατικούς χειρισμούς, αυτή η δοκιμή καταδεικνύει πολύ αδύναμα μέτρα ασφαλείας και μέτρα ασφαλείας που εφαρμόζονται στο GROK 3”, ανέφερε η έκθεση. “Κάθε προσέγγιση στο jailbreak και κάθε κίνδυνος ήταν επιτυχής.”
Η Adversa παραδέχεται ότι η δοκιμή δεν ήταν “εξαντλητική”, αλλά αυτό επιβεβαιώνει ότι το Grok 3 “μπορεί να μην έχει ακόμη υποβληθεί στο ίδιο επίπεδο διευκρίνισης της ασφάλειας με τους ανταγωνιστές τους”.
Επίσης: Ποια είναι η αμηχανία της βαθιάς έρευνας και πώς το χρησιμοποιείτε;
Σύμφωνα με το σχεδιασμό, ο Gorka έχει λιγότερους φράχτες από τους ανταγωνιστές, τα καλλιτεχνικά σκουπίδια απολαμβάνουν σε αυτό. (Η ανακοίνωση του Gorka το 2023 σημείωσε ότι το chat bot “θα απαντήσει σε πικάντικες ερωτήσεις που απορρίπτονται από τα περισσότερα άλλα συστήματα τεχνητής νοημοσύνης”). Η ασφάλεια της μηχανής Intelligence επιβεβαίωσε στη δήλωσή της ότι “σε αντίθεση με την Google και την OpenAI, οι οποίες έχουν εισαγάγει ισχυρούς φράχτες γύρω από τα πολιτικά αιτήματα, αναπτύχθηκε ένας λόφος χωρίς τέτοιους περιορισμούς”.
Ακόμη και η γεννήτρια εικόνων Aurora του Grok δεν έχει φράχτη ή υπογραμμίζει την ασφάλεια. Στο αρχικό του ζήτημα παρουσιάστηκαν επιλεκτικές γενιές, οι οποίες ήταν μάλλον επικίνδυνες, συμπεριλαμβανομένων των υπερρεαλιστικών φωτογραφιών του πρώην αντιπροέδρου του Kamaly Harris, οι οποίες χρησιμοποιήθηκαν ως παραπληροφόρηση των εκλογών και οι βίαιες εικόνες του Donald Trump.
Το γεγονός ότι ο λόφος εκπαιδεύτηκε σε tweets μπορεί να υπερβάλλει αυτή την έλλειψη φράχτη, δεδομένου ότι το Musk έχει μειωθεί έντονα και ακόμη και εξαλείφει τις προσπάθειες τροποποίησης του περιεχομένου στην πλατφόρμα, αφού το απέκτησε το 2022. Αυτή η ποιότητα των δεδομένων σε συνδυασμό με δωρεάν περιορισμούς μπορεί να δώσει πολύ πιο επικίνδυνα αποτελέσματα αιτήματος. Πεδίο
Επίσης: οι ΗΠΑ αναβάλλουν την ασφάλεια του AI υπέρ της “κυριαρχίας του AI”
Η έκθεση παραλαμβάνεται μεταξύ των φαινομενικά ατελείωτων προβλημάτων ασφάλειας και ασφάλειας σε σύγκριση με την κινεζική εκκίνηση Deepseek AI και τα μοντέλα της, τα οποία ήταν επίσης εύκολα θυμωμένα. Δεδομένου ότι η διοίκηση Trump εξαλείφει σταθερά μια μικρή ρύθμιση του AI, που ήδη λειτουργεί στις Ηνωμένες Πολιτείες, λιγότερες εξωτερικές εγγυήσεις που διεγείρουν τις εταιρείες AI να κάνουν τα μοντέλα τους όσο το δυνατόν πιο ασφαλή και ασφαλή.