Σε μια βαθιά μελέτη, το OpenAI έχει περισσότερη αντοχή από τη δική σας, αλλά αυτό δεν είναι ακόμα το ήμισυ του χρόνου

Openai-browsecom-wallpaper-16-9-1-png-copy — Ανοικτός

Το τελευταίο σε γενετική τεχνητή νοημοσύνη περιλαμβάνει τεχνητές πράκτορες νοημοσύνης που μπορούν να έχουν πρόσβαση στο Διαδίκτυο για να βρουν απαντήσεις σε ερωτήσεις. Παρά την πολλά υποσχόμενη, οι τεχνολογίες των πράκτορα εργάζονται στο στάδιο ανάπτυξης.

Σε ένα άρθρο που δημοσιεύθηκε την περασμένη εβδομάδα, οι ερευνητές της OpenAI συνεργάζονται ως τεχνολογία για βαθιά έρευνα της εταιρείας, η οποία δημιουργήθηκε στο Διαδίκτυο, είναι πολύ καλύτερη από άλλα μοντέλα OpenAI όταν ανταποκρίνονται σε ερωτήσεις στο διαδίκτυο. Το κάνει επίσης πολύ καλύτερα από τους ανθρώπους στα καθήκοντα που απαιτούν αναζήτηση για αναζήτηση.

Επίσης: Ποιοι είναι οι πράκτορες AI; Πώς να αποκτήσετε πρόσβαση σε μια ομάδα εξατομικευμένων βοηθών

Αλλά οι βαθιές μελέτες εξακολουθούν να σκοντάφτουν σχεδόν το ήμισυ του χρόνου.

Η νέα δοκιμή OpenAI δείχνει ότι οι βαθιές μελέτες μπορούν να είναι πιο ανθεκτικές και διωγμένες αναζητώντας μια απάντηση από ό, τι οι ανθρώπινοι ερευνητές για ορισμένα καθήκοντα, αλλά εξακολουθεί να μην μπορεί να καταλήξει σε απάντηση συχνά.

Το όνομα Browsecomp, η δοκιμή περιγράφεται από τους συντάκτες του Jason Vei και της ομάδας “ένα απλό αλλά δύσκολο πρότυπο για τη μέτρηση της ικανότητας των παραγόντων να δουν το Διαδίκτυο”.

Η προϋπόθεση είναι ότι οι πράκτορες AI – αυτό σημαίνει ότι τα μοντέλα του AIS που μπορούν να δουν “χιλιάδες ιστοσελίδες” μπορεί να είναι πολύ πιο επινοητικά από ό, τι οι άνθρωποι που έχουν περιορισμένη μνήμη είναι κουραστικά στο διαδίκτυο και “μπορούν να επισκεφθούν μόνο ένα πράγμα εκείνη την εποχή και δεν μπορούν να παραλληλιστούν”, σημαίνει ότι δεν μπορεί να κατευθύνει το μυαλό τους σε παράλληλες ροές σκέψης.

“Από την άλλη πλευρά, η μηχανή Intelligence έχει μια πολύ ευρύτερη αναθεώρηση και μπορεί να λειτουργήσει ακούραστα χωρίς να αποστασιοποιηθεί”, γράψτε Wei και Team.

Επίσης: Οι βαθιές μελέτες του OpenAI μπορούν να σας εξοικονομήσουν ώρες εργασίας – και τώρα είναι πολύ φθηνότερο

Η Vei και η ομάδα βασίζονται στην προηγούμενη δουλειά τους από πέρυσι, “SimpleQ & A”, το οποίο ελέγχει την ικανότητα του AI να απαντήσει σε “σύντομες ερωτήσεις που αναζητούν γεγονότα”. Οι ερωτήσεις καλύφθηκαν από τηλεοπτικές και ταινίες, επιστήμη, ιστορία, μουσική, βιντεοπαιχνίδια, πολιτική και άλλα θέματα.

Το Browsecomp από 1266 ερωτήσεις έχει σχεδιαστεί για να υπερβαίνει την απλή αναζήτηση πληροφοριών, την έκθεση των συγγραφέων. Αντ ‘αυτού, αυτά είναι ερωτήματα για τα οποία είναι δύσκολο να βρεθούν απαντήσεις, όπως το έθεσαν, “περίπλοκο επειδή απαιτούν την αναζήτηση σε ένα μεγάλο χώρο πιθανών απαντήσεων και τη σύγκρισή τους με τους περιορισμούς που τίθενται στην ερώτηση” και “είναι δύσκολο να εξαλειφθούν βαθιά σύγχυση στο Διαδίκτυο”.

Για παράδειγμα, ένα ζευγάρι ερωτήσεων-απαντήσεων έχει ως εξής:

Προσδιορίστε το όνομα της μελέτης που δημοσιεύθηκε μέχρι τον Ιούνιο του 2023, το οποίο αναφέρει τις πολιτιστικές παραδόσεις, τις επιστημονικές διαδικασίες και τις μαγειρικές καινοτομίες. Αυτός είναι ο συν-συγγραφέας τριών ατόμων: ένας από αυτούς ήταν βοηθός καθηγητής στη Δυτική Βεγγάλη και ο άλλος είναι η Aode of Philosophy.
(Απάντηση: Βασικές αρχές του ψωμιού μαγειρέματος: Επιστήμη για το ψωμί)

Τονίζουν ότι ένα τέτοιο ερώτημα είναι εύκολο να ελεγχθεί, επειδή η απάντηση περιέχεται σε μία φράση, η οποία είναι “αυτόνομη”.

OpenAI-2025-Browsecomp-Sample-quietstion-onswer-pars — Ανοικτός

Οι ερωτήσεις και οι απαντήσεις αναπτύχθηκαν από ανθρώπινους “προπονητές” και επιλέχθηκαν ως αδύνατο για επίλυση μόνο χρησιμοποιώντας το CATGPT OpenAI, με ή χωρίς προβολή. Οι ερωτήσεις ήταν επίσης αδύνατο για την “πρώιμη έκδοση” της βαθιάς έρευνας.

Δείχνοντας πώς οι αδύναμοι άνθρωποι αναζητούν το Διαδίκτυο, έλεγξαν για πρώτη φορά άτομα που ήταν “εξοικειωμένοι με το σύνολο δεδομένων” για να απαντήσουν σε ερωτήσεις.

OpenAI-2025-Humans-up-asday-Hard-Hard-Answer-Questions — Ανοικτός

Τα αποτελέσματα δεν ήταν καλά για τους ανθρώπους. Για το 70% των ερωτήσεων, οι άνθρωποι παραδόθηκαν μετά από δύο ώρες προσπάθειας. Απάντησαν μόνο περίπου το 30% των ερωτήσεων και κατά 14% των προτάσεων των απαντήσεων, οι προτάσεις των ανθρώπων Δεν το έκανα Συγκρίνετε την πραγματική απάντηση.

Η Vei και η ομάδα υποδηλώνουν ότι τα άτομα με υψηλότερες δεξιότητες αναζήτησης μπορούν να επιτύχουν μεγαλύτερη επιτυχία: “Είναι πιθανό ότι πολλά από τα προβλήματα που αρνήθηκαν θα επιλυθούν από έμπειρους επαγγελματίες (για παράδειγμα, ντετέκτιβ ή δημοσιογράφους -ερευνητικά) με αρκετό χρόνο”.

OpenAI-2025-Browsecomp-Ccuracy και βαθμονόμηση — Ανοικτός

Μετά από τους ανθρώπους, έλεγξαν βαθιά έρευνα ενάντια στο GPT-4O OpenAI (με τη δυνατότητα να βλέπουν και χωρίς αυτό), GPT-4.5 και μοντέλα O1.

Τα αποτελέσματα ήταν τρομερά. “Οι GPT-4O και GPT-4.5 έφθασαν σχεδόν μηδενική ακρίβεια, υπογραμμίζοντας την πολυπλοκότητα του προτύπου”, γράφουν. “Χωρίς ειδική συλλογιστική ή χρήση εργαλείων, τα μοντέλα δεν μπορούν να εξαγάγουν τους τύπους ασαφείς, πολλαπλές πληροφορίες.

Το O1 έγινε καλύτερο αυτό “[suggests] ότι μερικές απαντήσεις στο Browecomp μπορούν να δοθούν μέσω του συμπεράσματος σχετικά με την εσωτερική γνώση. «

Επίσης: AI απελευθερώνει πιο προηγμένη απάτη. Αυτό πρέπει να δώσετε προσοχή (και πώς να παραμείνετε προστατευμένοι)

Με αξιολόγηση 51,5%, οι βαθιές μελέτες ήταν “πολύ καλύτερες” και “είναι ιδιαίτερα αποτελεσματικό να απαντήσουμε σε εξειδικευμένες, μη διαισθητικές ερωτήσεις που απαιτούν προβολή πολλών ιστότοπων”, γράφουν ο Wei και η ομάδα.

Παρ ‘όλα αυτά, διαπίστωσαν επίσης ότι το GPT-4O χρησιμοποιώντας την προβολή και τη βαθιά έρευνα μπορεί να είναι λάθος, να είναι “αυτοπεποίθηση” σχετικά με λανθασμένες απαντήσεις που ονομάζονται σφάλμα βαθμονόμησης.

“Τα μοντέλα με δυνατότητες προβολής, όπως το GPT-4O, με προβολή και βαθιά έρευνα, αποδεικνύουν ένα υψηλότερο σφάλμα βαθμονόμησης”, γράφουν, “το θέμα ότι η πρόσβαση στα εργαλεία ιστού μπορεί να αυξήσει την εμπιστοσύνη του μοντέλου σε άπιστους.

Για να διορθώσουν το σφάλμα βαθμονόμησης, διεξήγαγαν μια άλλη δοκιμή με βαθιά έρευνα, στην οποία το μοντέλο έπρεπε να φέρει μέχρι και 64 απαντήσεις σε κάθε ερώτηση. Τότε είχαν ένα μοντέλο επέλεξε το καλύτερο από αυτά. Όταν συνέβη αυτό, οι βαθιές μελέτες ήταν αρκετά καλές στην επιλογή της σωστής απάντησης μεταξύ όλων των προτάσεων.

OpenAI-2025-best-n-n-ncaling-ccuracy — Ανοικτός

Αυτό, γράψτε στον Vey και στην ομάδα, υποδηλώνει ότι το “μοντέλο συχνά” γνωρίζει “όταν είναι σωστό, ακόμα κι αν αγωνίζεται να εκφράσει αυτή την εμπιστοσύνη ως βαθμονομημένη πιθανότητα”.

Επίσης: Το τελευταίο τσιπ Google αφορά τη μείωση ενός τεράστιου κρυμμένου κόστους στην τεχνητή νοημοσύνη

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

May 15, 2025

Αυτός ο σταθμός ηλεκτροπαραγωγής κρατούσε το φως μου κατά τη διάρκεια του τερματισμού την περασμένη εβδομάδα – και μόλις έπεσε $ 900

May 15, 2025

Σημειώνουν επίσης ότι η επιτυχία των βαθιών μελετών βελτιώνεται με την προσθήκη περισσότερων υπολογισμών, προσθέτοντας σε αυτό κατά την αναζήτηση στο Διαδίκτυο. Χρήση, “Η παραγωγικότητα ομαλά ανάλογα με το ποσό του χρόνου δοκιμής που χρησιμοποιείται”. Πρόκειται για ένα τετράγωνο με αυξανόμενη τάση για να πετάξετε περισσότερες μάρκες του γραφικού επεξεργαστή στο έργο της παραγωγής.

OpenAI-2025-Browsecomp-Test-Time-Curacy Scaling — Ανοικτός

Η Vei και η ομάδα δεν δίνουν άμεσα καμία υπόθεση για το γιατί οι βαθιές μελέτες αποτυγχάνουν σχεδόν το ήμισυ του χρόνου, αλλά η σιωπηρή απάντηση είναι να κλιμακώσει την ικανότητά της με μεγάλο αριθμό υπολογισμών. Όταν εκτελούν περισσότερα παράλληλα καθήκοντα και ζητούν από το μοντέλο να αξιολογήσουν διάφορες απαντήσεις, η ακρίβεια επηρεάζει το 75% της αντίδρασης.

Είναι κατανοητό ότι είναι σημαντικό να επιλέξετε στρατηγικές που αναγκάζουν το μοντέλο αξιολογώ Τις δικές του προσπάθειες, και όχι μόνο να επιδιώξουν μια απάντηση. Χωρίς αυτό το στάδιο, το μοντέλο αγωνίζεται πολύ χρόνο.

Επίσης: με μοντέλα τεχνητής νοημοσύνης

Οι συγγραφείς παραδέχονται ότι μια μεγάλη τρύπα στο Browsecomp είναι ότι περιορίζεται από ερωτήσεις που είναι εύκολο να κατανοήσουν τον υπολογιστή και των οποίων οι απαντήσεις είναι εύκολο να ελέγξουν. Καμία από τις 1266 ερωτήσεις δεν περιελάμβανε “μεγάλες απαντήσεις ή τη δυνατότητα επίλυσης ασάφειας στα ερωτήματα χρηστών”.

Ως αποτέλεσμα, το Browsecomp, λένε, ελέγξτε τις “κύριες” λειτουργίες των πράκτορων AI, αλλά δεν είναι ολοκληρωμένες. “Το μοντέλο θα πρέπει να είναι πολύ έμπειρο στην αναζήτηση για τα θραύσματα των πληροφοριών που δεν είναι εγγυημένο ότι αυτό γενικεύει όλα τα καθήκοντα που απαιτούν προβολή”.

Οι βαθιές μελέτες είναι διαθέσιμες στους χρήστες OpenAI Plus και Pro Ppociptions.

Θέλετε περισσότερες ιστορίες για το AI; Εγγραφείτε για καινοτομίαΗ εβδομαδιαία ψηφοφορία πληροφόρησης.

Σε μια βαθιά μελέτη, το OpenAI έχει περισσότερη αντοχή από τη δική σας, αλλά αυτό δεν είναι ακόμα το ήμισυ του χρόνου

Related posts

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

Αυτός ο σταθμός ηλεκτροπαραγωγής κρατούσε το φως μου κατά τη διάρκεια του τερματισμού την περασμένη εβδομάδα – και μόλις έπεσε $ 900

Τα καλύτερα οφέλη για τους ήρωες υποστήριξης

Ασιατικές αγορές: Ιαπωνία ΔΤΚ, τιμολόγια του Trump

Ασιατικές αγορές: Ιαπωνία ΔΤΚ, τιμολόγια του Trump

Leave a Reply Cancel reply

RECOMMENDED NEWS

Μπόνους X-Men Debate Pages κρυμμένες πίσω από κωδικούς QR

Το 27% των λιστών κενών θέσεων για τους οικονομικούς διευθυντές αναφέρουν τώρα το AI

Η επιθυμία του Gambhir για το Chakravarti ή το Rochita για την υποστήριξη του Kuldip – ποιος θα κερδίσει έναν αγώνα για έναν τόπο εναντίον του Μπαγκλαντές;

Έχω επιλέξει 21+ καλύτερα ακουστικά Amazon Spring.

BROWSE BY CATEGORIES

POPULAR NEWS

Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

Recent News

Category

World News

30+ ταινίες WB είναι τώρα δωρεάν στο YouTube, συμπεριλαμβανομένου του Pluto Nash

Η Bank of America λέει ότι αγοράστε το απόθεμα αυτού του γυμναστηρίου λόγω της δημοτικότητας του Pickleball