
Η Openai λέει ότι τα τελευταία μοντέλα του, O3 και O4-Mini, είναι τα πιο ισχυρά. Παρ ‘όλα αυτά, οι μελέτες δείχνουν ότι τα μοντέλα επίσης παραμένουν περισσότερο – τουλάχιστον δύο φορές περισσότερο από τα προηγούμενα μοντέλα.
Επίσης: Πώς να χρησιμοποιήσετε το chatgpt: Οδηγός για αρχάριους σύμφωνα με το πιο δημοφιλές AI chatbot
Στον χάρτη του συστήματος, μια αναφορά που συνοδεύει κάθε νέο μοντέλο AI και δημοσιεύθηκε με κυκλοφορία την περασμένη εβδομάδα, ο OpenAI δήλωσε ότι το O4-Mini είναι λιγότερο ακριβές και πιο ψευδαισθήσεις από τα O1 και O3. Χρησιμοποιώντας το PersonQA, η εσωτερική δοκιμή που βασίζεται σε δημόσιες πληροφορίες, η εταιρεία διαπίστωσε ότι το O4-Mini παραπλανήθηκε στο 48% των απαντήσεων, που είναι τρεις φορές O1.
Ενώ το O4-Mini είναι μικρότερο, φθηνότερο και ταχύτερο από το O3, και, ως εκ τούτου, δεν αναμένεται ότι θα το ξεπεράσει, το O3 εξακολουθεί να είναι Hallucronum στο 33% των απαντήσεων, ή διπλάσια της ταχύτητας O1. Από τα τρία μοντέλα, το O3 κέρδισε τα καλύτερα αποτελέσματα στην ακρίβεια.
Επίσης: Το O1 της Operai βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό
“Το O3 τείνει να κάνει περισσότερες καταγγελίες εν γένει, γεγονός που οδηγεί σε ακριβέστερες απαιτήσεις, καθώς και σε πιο ανακριβείς/παραισθητικές αξιώσεις”, εξήγησε ο Openai. “Απαιτούνται πρόσθετες μελέτες για την κατανόηση της αιτίας αυτού του αποτελέσματος.”
Οι ψευδαισθήσεις που σχετίζονται με τις κατασκευασμένες αξιώσεις, την έρευνα και ακόμη και τις διευθύνσεις URL συνέχισαν να επιδιώκουν ακόμη και τα πιο προηγμένα επιτεύγματα στο AI. Επί του παρόντος, δεν υπάρχει τέλεια λύση για να τα αποτρέψετε ή να τα αναγνωρίσετε, αν και η OpenAI έχει δοκιμάσει κάποιες προσεγγίσεις.
Επιπλέον, η επαλήθευση των γεγονότων είναι ένας κινούμενος στόχος, ο οποίος περιπλέκει την εφαρμογή και την κλίμακα. Η επαλήθευση των γεγονότων περιλαμβάνει ένα ορισμένο επίπεδο γνωστικών δεξιοτήτων ενός ατόμου, το οποίο στερείται κυρίως AI, ως κοινή λογική, διορατικότητα και συμφραζόμενη. Ως αποτέλεσμα, ο βαθμός στο οποίο το μοντέλο παραισθησιών εξαρτάται σε μεγάλο βαθμό από την ποιότητα της κατάρτισης δεδομένων (και την πρόσβαση στο Διαδίκτυο για τρέχουσες πληροφορίες).
Η ελαχιστοποίηση των ψευδών πληροφοριών στα εκπαιδευτικά δεδομένα μπορεί να μειώσει την πιθανότητα εσφαλμένης δήλωσης κατάντη. Παρ ‘όλα αυτά, αυτή η τεχνική δεν εμποδίζει τις ψευδαισθήσεις, αφού πολλές δημιουργικές επιλογές για το chat -bota ai δεν είναι ακόμη πλήρως κατανοητές.
Γενικά, ο κίνδυνος ψευδαισθήσεων τείνει να μειώνεται αργά με κάθε νέα απελευθέρωση του μοντέλου, γεγονός που καθιστά τα αποτελέσματα των O3 και O4-Mini κάπως απροσδόκητου. Παρόλο που η O3 σημείωσε 12 ποσοστιαίες μονάδες σε σύγκριση με την ακρίβεια του Ο1, το γεγονός ότι το μοντέλο είναι παραισθητικό διπλάσιο, υποδηλώνει ότι η ακρίβειά του δεν έχει αυξηθεί ανάλογα με τις δυνατότητές του.
Επίσης: Δύο από τις αγαπημένες μου εφαρμογές AI στο Linux – και πώς τις χρησιμοποιώ για να κάνω περισσότερα
Όπως και άλλα πρόσφατα ζητήματα, τα O3 και O4-Mini είναι μοντέλα συλλογιστικής, πράγμα που σημαίνει ότι εμφανίζονται στα βήματα που λαμβάνουν για να ερμηνεύσουν τον υπαινιγμό για τον χρήστη. Την περασμένη εβδομάδα, το “Ανεξάρτητο Ερευνητικό Εργαστήριο” δημοσίευσε την αξιολόγησή του, η οποία διαπίστωσε ότι η O3 συχνά παραποιεί τις ενέργειες που δεν μπορεί να λάβει ως απάντηση σε ένα αίτημα, συμπεριλαμβανομένης της αίτησης για την έναρξη της Python στο περιβάλλον κωδικοποίησης, παρά το γεγονός ότι η συνομιλία δεν έχει την ίδια ικανότητα.
Επιπλέον, το μοντέλο διπλασιάζεται όταν πιάστηκε. «[o3] Περαιτέρω, δικαιολογεί παραισθησιολογικές εξόδους όταν ο χρήστης ανακριθεί, ακόμη και ισχυριζόμενος ότι χρησιμοποιεί το εξωτερικό MacBook Pro για να εκτελέσει υπολογισμούς και αντίγραφα εξόδων από το CHATGPT “, εξηγεί η έκθεση.
Αυτό το αποτέλεσμα είναι ιδιαίτερα συγκεχυμένο, επειδή τα μοντέλα συλλογισμού χρειάζονται περισσότερο χρόνο για να παρέχουν πιο λεπτομερείς, καλύτερες απαντήσεις. Η μετάφραση του συν -παραγόμενου Sarah Shtetmann είπε ακόμη και στην TechCrunch ότι “το επίπεδο των ψευδαισθήσεων του O3 μπορεί να το κάνει λιγότερο χρήσιμο από διαφορετικό”.
Επίσης: τα bots συνομιλίας παραμορφώνουν τα νέα – ακόμη και για τους αμειβόμενους χρήστες
Η έκθεση Transluce ανέφερε: “Αν και είναι γνωστό ότι τα προβλήματα της ειλικρίνειας από τη μετά την κατάρτιση υπάρχουν, δεν εξηγούν πλήρως την αυξημένη σοβαρότητα των ψευδαισθήσεων στα μοντέλα λογικής.
Την περασμένη εβδομάδα, οι πηγές στο OpenAI και οι τρίτοι δοκιμαστές επιβεβαίωσαν ότι η εταιρεία μειώνει απότομα το αντίθετο των δοκιμών ασφαλείας για νέα μοντέλα, συμπεριλαμβανομένου του O3. Ενώ η κάρτα συστήματος δείχνει ότι τα O3 και O4-Mini είναι “περίπου κανονικά” με O1 για βιωσιμότητα κατά των προσπαθειών Jalebreak (και οι τρεις εκτιμήσεις μεταξύ 96% και 100%), αυτές οι ψευδαισθήσεις δημιουργούν ερωτήματα σχετικά με τις επιπτώσεις που σχετίζονται με την ανασφάλεια που αλλάζουν τις προσωρινές περιοχές δοκιμών.
Το καθήκον εξακολουθεί να είναι στους χρήστες να ελέγχουν το γεγονός για κάθε συμπέρασμα του μοντέλου τεχνητής νοημοσύνης. Αυτή η στρατηγική φαίνεται σοφή όταν χρησιμοποιείτε τα μοντέλα συλλογισμού τελευταίας γενιάς.