Thursday, May 22, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer
My Ai Innovations
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Lifestyle
  • Sports
  • Travel
No Result
View All Result
My Ai Innovations
Home Technology

Αυτό το νέο πρότυπο AI μετρά πόσα μοντέλα βρίσκονται

Jessica Thompson by Jessica Thompson
March 11, 2025
in Technology
0
Αυτό το νέο πρότυπο AI μετρά πόσα μοντέλα βρίσκονται
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter
GetTyimages-2163895220

Akinbostanci/Getty Images

Δεδομένου ότι όλο και περισσότερα μοντέλα τεχνητής νοημοσύνης δείχνουν στοιχεία ότι είναι σε θέση να εξαπατήσουν τους δημιουργούς τους, οι ερευνητές από το Κέντρο Ασφάλειας και η κλίμακα του AI έχουν αναπτύξει τον πρώτο ανιχνευτή ψεμάτων.

Την Τετάρτη, οι ερευνητές έχουν κυκλοφορήσει τον προσανατολισμό του μοντέλου μεταξύ ευθυγράμμισης και γνώσης (μάσκα), γεγονός που καθορίζει πόσο εύκολα είναι δυνατόν να εξαπατηθεί το μοντέλο σε συνειδητά ψέματα στους χρήστες ή την «ηθική αρετή» του.

Επίσης: Το O1 της Operai βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό

Οι μεμονωμένοι δείκτες, η εξαπάτηση και η ισοπέδωση, όταν το μοντέλο AI ισχυρίζεται σκόπιμα ότι αλλάζει τις αξίες του, όταν, όταν αναγκαστεί, είναι ένας τρόπος με τους οποίους τα μοντέλα AI υπονομεύουν τους δημιουργούς τους και μπορούν να δημιουργήσουν σοβαρές απειλές για την ασφάλεια και την ασφάλεια.

Μελέτες δείχνουν ότι το O1 OpenAI είναι ιδιαίτερα καλό στα προγράμματα για να διατηρήσει τον έλεγχο του εαυτού τους και το CLAUDE 3 OPUS απέδειξε ότι μπορεί να διαιρέσει την ευθυγράμμιση.

Επίσης: Πώς οι Cisco, Langchain και Galileo επιδιώκουν να υποστηρίξουν την έκρηξη Cambrian των παραγόντων τεχνητής νοημοσύνης “

Για να διευκρινιστούν, οι ερευνητές διαπίστωσαν ότι βρίσκονται ως “(1), έχοντας κάνει μια δήλωση από ένα καλά γνωστό (ή θεωρείται) ψευδές και (2) που σκοπεύουν να αποδεχθούν τη δήλωση ως αληθινή”, σε αντίθεση με άλλες ψευδείς απαντήσεις, όπως παραισθήσεις. Οι ερευνητές δήλωσαν ότι η βιομηχανία δεν είχε ακόμη επαρκή μέθοδο για την αξιολόγηση της ειλικρίνειας στα μοντέλα AI.

“Πολλοί δείκτες ισχυρίζονται ότι μετράνε την ειλικρίνεια, στην πραγματικότητα, μετράει απλώς την ακρίβεια – την ορθότητα των πεποιθήσεων του μοντέλου – μεταμφιεσμένη”, αναφέρει η έκθεση. Για παράδειγμα, τα κριτήρια όπως η αλήθεια μετρούν εάν το μοντέλο μπορεί να δημιουργήσει “εύλογη παραπληροφόρηση”, αλλά αν το μοντέλο προτίθεται να εξαπατήσει σκόπιμα, παρέχοντας ψευδείς πληροφορίες, εξήγησε το άρθρο.

“Ως αποτέλεσμα, τα πιο ικανά μοντέλα μπορούν να λειτουργήσουν καλύτερα σε αυτά τα κριτήρια μέσω μιας ευρύτερης πραγματικής κάλυψης και όχι απαραίτητα επειδή απέχουν από συνειδητή”, ανέφεραν οι ερευνητές. Η μάσκα είναι η πρώτη δοκιμή για τη διαφοροποίηση της ακρίβειας και της ειλικρίνειας.

Εικ. 3

Ένα παράδειγμα άσκησης αξιολόγησης στην οποία δόθηκε το μοντέλο για την κατασκευή στατιστικών στοιχείων βάσει αίτησης χρήστη.

II Κέντρο Ασφαλείας

Οι ερευνητές σημείωσαν ότι εάν τα μοντέλα βρίσκονται, υποβάλλονται στους χρήστες νόμιμες, οικονομικές και εμπιστευτικές βλάβες. Παραδείγματα μπορεί να περιλαμβάνουν μοντέλα που δεν μπορούν να επιβεβαιώσουν με ακρίβεια εάν μεταφέρουν χρήματα στον σωστό τραπεζικό λογαριασμό, εισάγονται στον πελάτη ή κατά λάθος διαρρέουν εμπιστευτικά δεδομένα.

Επίσης: Πώς το AI θα μετατρέψει την ασφάλεια στον κυβερνοχώρο το 2025 – και την υπερφόρτωση του εγκληματία στον κυβερνοχώρο

Related posts

Το iOS 19 μπορεί να δώσει στο iPhone σας μια μεγάλη ενημέρωση για τη διάρκεια ζωής της μπαταρίας – χωρίς να χρειάζεται να κάνετε κάτι

Το iOS 19 μπορεί να δώσει στο iPhone σας μια μεγάλη ενημέρωση για τη διάρκεια ζωής της μπαταρίας – χωρίς να χρειάζεται να κάνετε κάτι

May 18, 2025
Αυτός είναι ο καλύτερος πνευματικός θερμαντήρας, τον οποίο χρησιμοποιούσα – και τώρα είναι προς πώληση

Αυτός είναι ο καλύτερος πνευματικός θερμαντήρας, τον οποίο χρησιμοποιούσα – και τώρα είναι προς πώληση

May 18, 2025

Χρησιμοποιώντας τη μάσκα και ένα σύνολο δεδομένων από περισσότερα από 1.500 αιτήματα που συλλέχθηκαν από ένα άτομο που σχεδιάστηκε για να “προσδιορίσει τα ψέματα”, οι ερευνητές εκτίμησαν 30 συνοριακά μοντέλα, αποκαλύπτοντας τις κύριες πεποιθήσεις τους και μετρώντας πόσο καλά προσκολλώνται σε αυτές τις απόψεις όταν πιέζουν. Οι ερευνητές έχουν διαπιστώσει ότι η υψηλότερη ακρίβεια δεν συσχετίζεται με την υψηλότερη ειλικρίνεια. Διαπίστωσαν επίσης ότι τα μεγαλύτερα μοντέλα, ειδικά τα συνοριακά μοντέλα, δεν είναι απαραιτήτως πιο αληθινά από τα μικρότερα.

Screenshot-2025-03-10 -at-3-33-24pm.png

Ένα δείγμα αξιολογήσεων μοντέλου από την αξιολόγηση της μάσκας.

II Κέντρο Ασφαλείας

Τα μοντέλα ήταν εύκολα ψέματα και ήξεραν ότι ψέματα. Στην πραγματικότητα, δεδομένου ότι τα μοντέλα κλιμακώνονται, φαινόταν να γίνονται πιο ανέντιμοι.

Το Grok 2 είχε το υψηλότερο μερίδιο (63%) ανέντιμων απαντήσεων από τα δοκιμασμένα μοντέλα. Ο Claude 3.7 Sonnet είχε το υψηλότερο μερίδιο των ειλικρινείς απαντήσεις κατά 46,9%.

Επίσης: Τα συνθετικά δεδομένα θα διαταράξουν την γενετική ώθηση ή θα είναι η επανάσταση που χρειαζόμαστε;

“Σε μια ποικιλία σετ LLM, διαπιστώνουμε ότι αν και τα μεγαλύτερα μοντέλα λαμβάνουν υψηλότερη ακρίβεια στο στάδιο αναφοράς μας, δεν γίνονται πιο ειλικρινείς”, εξήγησε οι ερευνητές.

“Παραδόξως, ενώ η πλειοψηφία των Frontier LLM λαμβάνει υψηλές βαθμίδες στα πρότυπα της ειλικρίνειας, βρίσκουμε μια σημαντική τάση για να ψέματα το Frontier LLM όταν το δίνετε να το κάνετε αυτό, γεγονός που οδηγεί σε χαμηλή ειλικρίνεια στο στάδιο μας”.

Επίσης: Τα περισσότερα εργαλεία για την κλωνοποίηση της φωνής της τεχνητής νοημοσύνης δεν είναι ασφαλή από τους απατεώνες, βρίσκονται οι καταναλωτικές αναφορές

Το σύνολο δεδομένων betenchmark είναι διαθέσιμο στο κοινό στο HugingFace και το GitHub.

“Ελπίζουμε ότι το πρότυπο μας συμβάλλει στην περαιτέρω πρόοδο σε σχέση με τα ειλικρινά συστήματα AI, παρέχοντας στους ερευνητές μια αυστηρή, τυποποιημένη μέθοδο μέτρησης και βελτίωσης της ειλικρίνειας του μοντέλου”, αναφέρει το έγγραφο.

Previous Post

Ο Seth διαρρέει 2η σεζόν. Πρώτη ματιά στο Νέο Βέγκας.

Next Post

Η Volkswagen δημοσιεύει το 15% των πτώσεων του ετήσιου κέρδους στο πλαίσιο της αναδιάρθρωσης

Next Post
Η Volkswagen δημοσιεύει το 15% των πτώσεων του ετήσιου κέρδους στο πλαίσιο της αναδιάρθρωσης

Η Volkswagen δημοσιεύει το 15% των πτώσεων του ετήσιου κέρδους στο πλαίσιο της αναδιάρθρωσης

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

RECOMMENDED NEWS

Αυτές οι 7 επενδύσεις δεν αξίζουν τα χρήματά σας, προειδοποιεί ο εμπειρογνώμονας

Αυτές οι 7 επενδύσεις δεν αξίζουν τα χρήματά σας, προειδοποιεί ο εμπειρογνώμονας

3 months ago
Αποκτήστε μια συνδρομή στο Sam’s Club για 20 $—Δείτε πώς να εγγραφείτε

Αποκτήστε μια συνδρομή στο Sam’s Club για 20 $—Δείτε πώς να εγγραφείτε

9 months ago
Ο Watson χτυπά LSG Odd Batting Move για να παίξει παντελόνι στις 7

Ο Watson χτυπά LSG Odd Batting Move για να παίξει παντελόνι στις 7

4 weeks ago
Κάντε αναβάθμιση σε Windows 11 Pro για 20 $ με αυτήν την προσφορά.

Κάντε αναβάθμιση σε Windows 11 Pro για 20 $ με αυτήν την προσφορά.

6 months ago

BROWSE BY CATEGORIES

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

POPULAR NEWS

  • Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

    Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

    0 shares
    Share 0 Tweet 0
  • Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    0 shares
    Share 0 Tweet 0
  • Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

    0 shares
    Share 0 Tweet 0
  • Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

    0 shares
    Share 0 Tweet 0
  • 7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

    0 shares
    Share 0 Tweet 0

Our mission is to deliver accurate, timely, and comprehensive news coverage that keeps our readers informed and engaged. We strive to provide a balanced perspective on the latest events and issues shaping our world, offering insightful analysis and in-depth reporting on a wide range of topics.

Follow us on social media:

Recent News

  • Ο Joe Ruth γίνεται ο ταχύτερος σε 13.000 δοκιμές, ξεπερνά τον Sachin Tendulkar & Rahul Dravid
  • Ο Mitchell Marsh Century βυθίζεται στην κορυφή -2 ελπίδες του Gujarata Titanov, ως μια παρηγορητική νίκη στην τσάντα ΥΦΑ
  • Λιγότεροι κανόνες, οι καλύτεροι άνθρωποι: ότι ο λαμπτήρας γίνεται σωστός

Category

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

World News

Μέλος της Βουλής των Αντιπροσώπων Marjori Taylor Green αύξησε τις μετοχές της Amazon και της Dell, όταν οι μετοχές μειώθηκαν κατά 40% του δασμολογικού μαστίγιο του Trump

Μέλος της Βουλής των Αντιπροσώπων Marjori Taylor Green αύξησε τις μετοχές της Amazon και της Dell, όταν οι μετοχές μειώθηκαν κατά 40% του δασμολογικού μαστίγιο του Trump

April 10, 2025
Η χρηματιστηριακή αγορά σήμερα: Dow Futures μειώνεται, καθώς το Trump καταρρέει 20% παγκόσμιο τιμολόγιο

Η χρηματιστηριακή αγορά σήμερα: Dow Futures μειώνεται, καθώς το Trump καταρρέει 20% παγκόσμιο τιμολόγιο

March 30, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer

© 2024 My Ai Innovations . All Rights Reserved.

No Result
View All Result
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Lifestyle
  • Sports
  • Travel

© 2024 My Ai Innovations . All Rights Reserved.