Τα πιο ικανά μοντέλα Modenai Halminate περισσότερο από ό, τι νωρίτερα

Gettyimages-2121412561 — Adrienne Bresnahan/Getty Images

Η Openai λέει ότι τα τελευταία μοντέλα του, O3 και O4-Mini, είναι τα πιο ισχυρά. Παρ ‘όλα αυτά, οι μελέτες δείχνουν ότι τα μοντέλα επίσης παραμένουν περισσότερο – τουλάχιστον δύο φορές περισσότερο από τα προηγούμενα μοντέλα.

Βιομετρία ενάντια στους κώδικες Pass: Τι λένε οι δικηγόροι εάν ανησυχείτε για την εύρεση τηλεφωνικών.

April 22, 2025

Γιατί προτείνω το Streamer Google TV για τα παραδοσιακά ραβδιά ροής – και είναι προς πώληση

April 22, 2025

Επίσης: Πώς να χρησιμοποιήσετε το chatgpt: Οδηγός για αρχάριους σύμφωνα με το πιο δημοφιλές AI chatbot

Στον χάρτη του συστήματος, μια αναφορά που συνοδεύει κάθε νέο μοντέλο AI και δημοσιεύθηκε με κυκλοφορία την περασμένη εβδομάδα, ο OpenAI δήλωσε ότι το O4-Mini είναι λιγότερο ακριβές και πιο ψευδαισθήσεις από τα O1 και O3. Χρησιμοποιώντας το PersonQA, η εσωτερική δοκιμή που βασίζεται σε δημόσιες πληροφορίες, η εταιρεία διαπίστωσε ότι το O4-Mini παραπλανήθηκε στο 48% των απαντήσεων, που είναι τρεις φορές O1.

Ενώ το O4-Mini είναι μικρότερο, φθηνότερο και ταχύτερο από το O3, και, ως εκ τούτου, δεν αναμένεται ότι θα το ξεπεράσει, το O3 εξακολουθεί να είναι Hallucronum στο 33% των απαντήσεων, ή διπλάσια της ταχύτητας O1. Από τα τρία μοντέλα, το O3 κέρδισε τα καλύτερα αποτελέσματα στην ακρίβεια.

Επίσης: Το O1 της Operai βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό

“Το O3 τείνει να κάνει περισσότερες καταγγελίες εν γένει, γεγονός που οδηγεί σε ακριβέστερες απαιτήσεις, καθώς και σε πιο ανακριβείς/παραισθητικές αξιώσεις”, εξήγησε ο Openai. “Απαιτούνται πρόσθετες μελέτες για την κατανόηση της αιτίας αυτού του αποτελέσματος.”

Οι ψευδαισθήσεις που σχετίζονται με τις κατασκευασμένες αξιώσεις, την έρευνα και ακόμη και τις διευθύνσεις URL συνέχισαν να επιδιώκουν ακόμη και τα πιο προηγμένα επιτεύγματα στο AI. Επί του παρόντος, δεν υπάρχει τέλεια λύση για να τα αποτρέψετε ή να τα αναγνωρίσετε, αν και η OpenAI έχει δοκιμάσει κάποιες προσεγγίσεις.

Επιπλέον, η επαλήθευση των γεγονότων είναι ένας κινούμενος στόχος, ο οποίος περιπλέκει την εφαρμογή και την κλίμακα. Η επαλήθευση των γεγονότων περιλαμβάνει ένα ορισμένο επίπεδο γνωστικών δεξιοτήτων ενός ατόμου, το οποίο στερείται κυρίως AI, ως κοινή λογική, διορατικότητα και συμφραζόμενη. Ως αποτέλεσμα, ο βαθμός στο οποίο το μοντέλο παραισθησιών εξαρτάται σε μεγάλο βαθμό από την ποιότητα της κατάρτισης δεδομένων (και την πρόσβαση στο Διαδίκτυο για τρέχουσες πληροφορίες).

Η ελαχιστοποίηση των ψευδών πληροφοριών στα εκπαιδευτικά δεδομένα μπορεί να μειώσει την πιθανότητα εσφαλμένης δήλωσης κατάντη. Παρ ‘όλα αυτά, αυτή η τεχνική δεν εμποδίζει τις ψευδαισθήσεις, αφού πολλές δημιουργικές επιλογές για το chat -bota ai δεν είναι ακόμη πλήρως κατανοητές.

Γενικά, ο κίνδυνος ψευδαισθήσεων τείνει να μειώνεται αργά με κάθε νέα απελευθέρωση του μοντέλου, γεγονός που καθιστά τα αποτελέσματα των O3 και O4-Mini κάπως απροσδόκητου. Παρόλο που η O3 σημείωσε 12 ποσοστιαίες μονάδες σε σύγκριση με την ακρίβεια του Ο1, το γεγονός ότι το μοντέλο είναι παραισθητικό διπλάσιο, υποδηλώνει ότι η ακρίβειά του δεν έχει αυξηθεί ανάλογα με τις δυνατότητές του.

Επίσης: Δύο από τις αγαπημένες μου εφαρμογές AI στο Linux – και πώς τις χρησιμοποιώ για να κάνω περισσότερα

Όπως και άλλα πρόσφατα ζητήματα, τα O3 και O4-Mini είναι μοντέλα συλλογιστικής, πράγμα που σημαίνει ότι εμφανίζονται στα βήματα που λαμβάνουν για να ερμηνεύσουν τον υπαινιγμό για τον χρήστη. Την περασμένη εβδομάδα, το “Ανεξάρτητο Ερευνητικό Εργαστήριο” δημοσίευσε την αξιολόγησή του, η οποία διαπίστωσε ότι η O3 συχνά παραποιεί τις ενέργειες που δεν μπορεί να λάβει ως απάντηση σε ένα αίτημα, συμπεριλαμβανομένης της αίτησης για την έναρξη της Python στο περιβάλλον κωδικοποίησης, παρά το γεγονός ότι η συνομιλία δεν έχει την ίδια ικανότητα.

Επιπλέον, το μοντέλο διπλασιάζεται όταν πιάστηκε. «[o3] Περαιτέρω, δικαιολογεί παραισθησιολογικές εξόδους όταν ο χρήστης ανακριθεί, ακόμη και ισχυριζόμενος ότι χρησιμοποιεί το εξωτερικό MacBook Pro για να εκτελέσει υπολογισμούς και αντίγραφα εξόδων από το CHATGPT “, εξηγεί η έκθεση.

Αυτό το αποτέλεσμα είναι ιδιαίτερα συγκεχυμένο, επειδή τα μοντέλα συλλογισμού χρειάζονται περισσότερο χρόνο για να παρέχουν πιο λεπτομερείς, καλύτερες απαντήσεις. Η μετάφραση του συν -παραγόμενου Sarah Shtetmann είπε ακόμη και στην TechCrunch ότι “το επίπεδο των ψευδαισθήσεων του O3 μπορεί να το κάνει λιγότερο χρήσιμο από διαφορετικό”.

Επίσης: τα bots συνομιλίας παραμορφώνουν τα νέα – ακόμη και για τους αμειβόμενους χρήστες

Η έκθεση Transluce ανέφερε: “Αν και είναι γνωστό ότι τα προβλήματα της ειλικρίνειας από τη μετά την κατάρτιση υπάρχουν, δεν εξηγούν πλήρως την αυξημένη σοβαρότητα των ψευδαισθήσεων στα μοντέλα λογικής.

Την περασμένη εβδομάδα, οι πηγές στο OpenAI και οι τρίτοι δοκιμαστές επιβεβαίωσαν ότι η εταιρεία μειώνει απότομα το αντίθετο των δοκιμών ασφαλείας για νέα μοντέλα, συμπεριλαμβανομένου του O3. Ενώ η κάρτα συστήματος δείχνει ότι τα O3 και O4-Mini είναι “περίπου κανονικά” με O1 για βιωσιμότητα κατά των προσπαθειών Jalebreak (και οι τρεις εκτιμήσεις μεταξύ 96% και 100%), αυτές οι ψευδαισθήσεις δημιουργούν ερωτήματα σχετικά με τις επιπτώσεις που σχετίζονται με την ανασφάλεια που αλλάζουν τις προσωρινές περιοχές δοκιμών.

Το καθήκον εξακολουθεί να είναι στους χρήστες να ελέγχουν το γεγονός για κάθε συμπέρασμα του μοντέλου τεχνητής νοημοσύνης. Αυτή η στρατηγική φαίνεται σοφή όταν χρησιμοποιείτε τα μοντέλα συλλογισμού τελευταίας γενιάς.

Τα πιο ικανά μοντέλα Modenai Halminate περισσότερο από ό, τι νωρίτερα

Related posts

Βιομετρία ενάντια στους κώδικες Pass: Τι λένε οι δικηγόροι εάν ανησυχείτε για την εύρεση τηλεφωνικών.

Γιατί προτείνω το Streamer Google TV για τα παραδοσιακά ραβδιά ροής – και είναι προς πώληση

Οι τελευταίες συνεντεύξεις που οι ηθοποιοί είναι χαρούμενοι και αγκαλιάζουν

Ο Υπουργός Οικονομικών εξακολουθεί να είναι ο πιο αξιόπιστος σύμμαχος των Ηνωμένων Πολιτειών στην Ευρώπη

Ο Υπουργός Οικονομικών εξακολουθεί να είναι ο πιο αξιόπιστος σύμμαχος των Ηνωμένων Πολιτειών στην Ευρώπη

Leave a Reply Cancel reply

RECOMMENDED NEWS

Η Navient φτάνει τα 120 εκατομμύρια δολάρια σε διακανονισμό με την CFPB για παραπλανητικούς δανειολήπτες φοιτητικών δανείων

Οι πελάτες του Snowflake αποκομίζουν το πρώτο όφελος από τις εφαρμογές Gen AI

Χρηματιστηριακή αγορά σήμερα: ζωντανές ενημερώσεις

Δωρεάν εξαργυρώστε τους κωδικούς Fire Max σήμερα 10 Αυγούστου Προσφέρετε ανταμοιβές

BROWSE BY CATEGORIES

POPULAR NEWS

Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

Recent News

Category

World News

Ο καλύτερος τρόπος για την εξορία 2 Ρυθμίσεις του Steam Deck

Η Εφορία του Τόκιο δημοπρατεί Ferrari και γήπεδο γκολφ 390.000 δολαρίων