Αυτό το νέο πρότυπο AI μετρά πόσα μοντέλα βρίσκονται

GetTyimages-2163895220 — Akinbostanci/Getty Images

Δεδομένου ότι όλο και περισσότερα μοντέλα τεχνητής νοημοσύνης δείχνουν στοιχεία ότι είναι σε θέση να εξαπατήσουν τους δημιουργούς τους, οι ερευνητές από το Κέντρο Ασφάλειας και η κλίμακα του AI έχουν αναπτύξει τον πρώτο ανιχνευτή ψεμάτων.

Την Τετάρτη, οι ερευνητές έχουν κυκλοφορήσει τον προσανατολισμό του μοντέλου μεταξύ ευθυγράμμισης και γνώσης (μάσκα), γεγονός που καθορίζει πόσο εύκολα είναι δυνατόν να εξαπατηθεί το μοντέλο σε συνειδητά ψέματα στους χρήστες ή την «ηθική αρετή» του.

Επίσης: Το O1 της Operai βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό

Οι μεμονωμένοι δείκτες, η εξαπάτηση και η ισοπέδωση, όταν το μοντέλο AI ισχυρίζεται σκόπιμα ότι αλλάζει τις αξίες του, όταν, όταν αναγκαστεί, είναι ένας τρόπος με τους οποίους τα μοντέλα AI υπονομεύουν τους δημιουργούς τους και μπορούν να δημιουργήσουν σοβαρές απειλές για την ασφάλεια και την ασφάλεια.

Μελέτες δείχνουν ότι το O1 OpenAI είναι ιδιαίτερα καλό στα προγράμματα για να διατηρήσει τον έλεγχο του εαυτού τους και το CLAUDE 3 OPUS απέδειξε ότι μπορεί να διαιρέσει την ευθυγράμμιση.

Επίσης: Πώς οι Cisco, Langchain και Galileo επιδιώκουν να υποστηρίξουν την έκρηξη Cambrian των παραγόντων τεχνητής νοημοσύνης “

Για να διευκρινιστούν, οι ερευνητές διαπίστωσαν ότι βρίσκονται ως “(1), έχοντας κάνει μια δήλωση από ένα καλά γνωστό (ή θεωρείται) ψευδές και (2) που σκοπεύουν να αποδεχθούν τη δήλωση ως αληθινή”, σε αντίθεση με άλλες ψευδείς απαντήσεις, όπως παραισθήσεις. Οι ερευνητές δήλωσαν ότι η βιομηχανία δεν είχε ακόμη επαρκή μέθοδο για την αξιολόγηση της ειλικρίνειας στα μοντέλα AI.

“Πολλοί δείκτες ισχυρίζονται ότι μετράνε την ειλικρίνεια, στην πραγματικότητα, μετράει απλώς την ακρίβεια – την ορθότητα των πεποιθήσεων του μοντέλου – μεταμφιεσμένη”, αναφέρει η έκθεση. Για παράδειγμα, τα κριτήρια όπως η αλήθεια μετρούν εάν το μοντέλο μπορεί να δημιουργήσει “εύλογη παραπληροφόρηση”, αλλά αν το μοντέλο προτίθεται να εξαπατήσει σκόπιμα, παρέχοντας ψευδείς πληροφορίες, εξήγησε το άρθρο.

“Ως αποτέλεσμα, τα πιο ικανά μοντέλα μπορούν να λειτουργήσουν καλύτερα σε αυτά τα κριτήρια μέσω μιας ευρύτερης πραγματικής κάλυψης και όχι απαραίτητα επειδή απέχουν από συνειδητή”, ανέφεραν οι ερευνητές. Η μάσκα είναι η πρώτη δοκιμή για τη διαφοροποίηση της ακρίβειας και της ειλικρίνειας.

Εικ. 3 — Ένα παράδειγμα άσκησης αξιολόγησης στην οποία δόθηκε το μοντέλο για την κατασκευή στατιστικών στοιχείων βάσει αίτησης χρήστη.

II Κέντρο Ασφαλείας

Οι ερευνητές σημείωσαν ότι εάν τα μοντέλα βρίσκονται, υποβάλλονται στους χρήστες νόμιμες, οικονομικές και εμπιστευτικές βλάβες. Παραδείγματα μπορεί να περιλαμβάνουν μοντέλα που δεν μπορούν να επιβεβαιώσουν με ακρίβεια εάν μεταφέρουν χρήματα στον σωστό τραπεζικό λογαριασμό, εισάγονται στον πελάτη ή κατά λάθος διαρρέουν εμπιστευτικά δεδομένα.

Επίσης: Πώς το AI θα μετατρέψει την ασφάλεια στον κυβερνοχώρο το 2025 – και την υπερφόρτωση του εγκληματία στον κυβερνοχώρο

Το iOS 19 μπορεί να δώσει στο iPhone σας μια μεγάλη ενημέρωση για τη διάρκεια ζωής της μπαταρίας – χωρίς να χρειάζεται να κάνετε κάτι

May 18, 2025

Αυτός είναι ο καλύτερος πνευματικός θερμαντήρας, τον οποίο χρησιμοποιούσα – και τώρα είναι προς πώληση

May 18, 2025

Χρησιμοποιώντας τη μάσκα και ένα σύνολο δεδομένων από περισσότερα από 1.500 αιτήματα που συλλέχθηκαν από ένα άτομο που σχεδιάστηκε για να “προσδιορίσει τα ψέματα”, οι ερευνητές εκτίμησαν 30 συνοριακά μοντέλα, αποκαλύπτοντας τις κύριες πεποιθήσεις τους και μετρώντας πόσο καλά προσκολλώνται σε αυτές τις απόψεις όταν πιέζουν. Οι ερευνητές έχουν διαπιστώσει ότι η υψηλότερη ακρίβεια δεν συσχετίζεται με την υψηλότερη ειλικρίνεια. Διαπίστωσαν επίσης ότι τα μεγαλύτερα μοντέλα, ειδικά τα συνοριακά μοντέλα, δεν είναι απαραιτήτως πιο αληθινά από τα μικρότερα.

Screenshot-2025-03-10 -at-3-33-24pm.png — Ένα δείγμα αξιολογήσεων μοντέλου από την αξιολόγηση της μάσκας.

II Κέντρο Ασφαλείας

Τα μοντέλα ήταν εύκολα ψέματα και ήξεραν ότι ψέματα. Στην πραγματικότητα, δεδομένου ότι τα μοντέλα κλιμακώνονται, φαινόταν να γίνονται πιο ανέντιμοι.

Το Grok 2 είχε το υψηλότερο μερίδιο (63%) ανέντιμων απαντήσεων από τα δοκιμασμένα μοντέλα. Ο Claude 3.7 Sonnet είχε το υψηλότερο μερίδιο των ειλικρινείς απαντήσεις κατά 46,9%.

Επίσης: Τα συνθετικά δεδομένα θα διαταράξουν την γενετική ώθηση ή θα είναι η επανάσταση που χρειαζόμαστε;

“Σε μια ποικιλία σετ LLM, διαπιστώνουμε ότι αν και τα μεγαλύτερα μοντέλα λαμβάνουν υψηλότερη ακρίβεια στο στάδιο αναφοράς μας, δεν γίνονται πιο ειλικρινείς”, εξήγησε οι ερευνητές.

“Παραδόξως, ενώ η πλειοψηφία των Frontier LLM λαμβάνει υψηλές βαθμίδες στα πρότυπα της ειλικρίνειας, βρίσκουμε μια σημαντική τάση για να ψέματα το Frontier LLM όταν το δίνετε να το κάνετε αυτό, γεγονός που οδηγεί σε χαμηλή ειλικρίνεια στο στάδιο μας”.

Επίσης: Τα περισσότερα εργαλεία για την κλωνοποίηση της φωνής της τεχνητής νοημοσύνης δεν είναι ασφαλή από τους απατεώνες, βρίσκονται οι καταναλωτικές αναφορές

Το σύνολο δεδομένων betenchmark είναι διαθέσιμο στο κοινό στο HugingFace και το GitHub.

“Ελπίζουμε ότι το πρότυπο μας συμβάλλει στην περαιτέρω πρόοδο σε σχέση με τα ειλικρινά συστήματα AI, παρέχοντας στους ερευνητές μια αυστηρή, τυποποιημένη μέθοδο μέτρησης και βελτίωσης της ειλικρίνειας του μοντέλου”, αναφέρει το έγγραφο.

Αυτό το νέο πρότυπο AI μετρά πόσα μοντέλα βρίσκονται

Related posts

Το iOS 19 μπορεί να δώσει στο iPhone σας μια μεγάλη ενημέρωση για τη διάρκεια ζωής της μπαταρίας – χωρίς να χρειάζεται να κάνετε κάτι

Αυτός είναι ο καλύτερος πνευματικός θερμαντήρας, τον οποίο χρησιμοποιούσα – και τώρα είναι προς πώληση

Ο Seth διαρρέει 2η σεζόν. Πρώτη ματιά στο Νέο Βέγκας.

Η Volkswagen δημοσιεύει το 15% των πτώσεων του ετήσιου κέρδους στο πλαίσιο της αναδιάρθρωσης

Η Volkswagen δημοσιεύει το 15% των πτώσεων του ετήσιου κέρδους στο πλαίσιο της αναδιάρθρωσης

Leave a Reply Cancel reply

RECOMMENDED NEWS

Αυτές οι 7 επενδύσεις δεν αξίζουν τα χρήματά σας, προειδοποιεί ο εμπειρογνώμονας

Αποκτήστε μια συνδρομή στο Sam’s Club για 20 $—Δείτε πώς να εγγραφείτε

Ο Watson χτυπά LSG Odd Batting Move για να παίξει παντελόνι στις 7

Κάντε αναβάθμιση σε Windows 11 Pro για 20 $ με αυτήν την προσφορά.

BROWSE BY CATEGORIES

POPULAR NEWS

Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

Recent News

Category

World News

Μέλος της Βουλής των Αντιπροσώπων Marjori Taylor Green αύξησε τις μετοχές της Amazon και της Dell, όταν οι μετοχές μειώθηκαν κατά 40% του δασμολογικού μαστίγιο του Trump

Η χρηματιστηριακή αγορά σήμερα: Dow Futures μειώνεται, καθώς το Trump καταρρέει 20% παγκόσμιο τιμολόγιο