Thursday, May 15, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer
My Ai Innovations
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Lifestyle
  • Sports
  • Travel
No Result
View All Result
My Ai Innovations
Home Technology

Σε μια βαθιά μελέτη, το OpenAI έχει περισσότερη αντοχή από τη δική σας, αλλά αυτό δεν είναι ακόμα το ήμισυ του χρόνου

Jessica Thompson by Jessica Thompson
April 18, 2025
in Technology
0
Σε μια βαθιά μελέτη, το OpenAI έχει περισσότερη αντοχή από τη δική σας, αλλά αυτό δεν είναι ακόμα το ήμισυ του χρόνου
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter
Openai-browsecom-wallpaper-16-9-1-png-copy

Ανοικτός

Το τελευταίο σε γενετική τεχνητή νοημοσύνη περιλαμβάνει τεχνητές πράκτορες νοημοσύνης που μπορούν να έχουν πρόσβαση στο Διαδίκτυο για να βρουν απαντήσεις σε ερωτήσεις. Παρά την πολλά υποσχόμενη, οι τεχνολογίες των πράκτορα εργάζονται στο στάδιο ανάπτυξης.

Σε ένα άρθρο που δημοσιεύθηκε την περασμένη εβδομάδα, οι ερευνητές της OpenAI συνεργάζονται ως τεχνολογία για βαθιά έρευνα της εταιρείας, η οποία δημιουργήθηκε στο Διαδίκτυο, είναι πολύ καλύτερη από άλλα μοντέλα OpenAI όταν ανταποκρίνονται σε ερωτήσεις στο διαδίκτυο. Το κάνει επίσης πολύ καλύτερα από τους ανθρώπους στα καθήκοντα που απαιτούν αναζήτηση για αναζήτηση.

Επίσης: Ποιοι είναι οι πράκτορες AI; Πώς να αποκτήσετε πρόσβαση σε μια ομάδα εξατομικευμένων βοηθών

Αλλά οι βαθιές μελέτες εξακολουθούν να σκοντάφτουν σχεδόν το ήμισυ του χρόνου.

Η νέα δοκιμή OpenAI δείχνει ότι οι βαθιές μελέτες μπορούν να είναι πιο ανθεκτικές και διωγμένες αναζητώντας μια απάντηση από ό, τι οι ανθρώπινοι ερευνητές για ορισμένα καθήκοντα, αλλά εξακολουθεί να μην μπορεί να καταλήξει σε απάντηση συχνά.

Το όνομα Browsecomp, η δοκιμή περιγράφεται από τους συντάκτες του Jason Vei και της ομάδας “ένα απλό αλλά δύσκολο πρότυπο για τη μέτρηση της ικανότητας των παραγόντων να δουν το Διαδίκτυο”.

Η προϋπόθεση είναι ότι οι πράκτορες AI – αυτό σημαίνει ότι τα μοντέλα του AIS που μπορούν να δουν “χιλιάδες ιστοσελίδες” μπορεί να είναι πολύ πιο επινοητικά από ό, τι οι άνθρωποι που έχουν περιορισμένη μνήμη είναι κουραστικά στο διαδίκτυο και “μπορούν να επισκεφθούν μόνο ένα πράγμα εκείνη την εποχή και δεν μπορούν να παραλληλιστούν”, σημαίνει ότι δεν μπορεί να κατευθύνει το μυαλό τους σε παράλληλες ροές σκέψης.

“Από την άλλη πλευρά, η μηχανή Intelligence έχει μια πολύ ευρύτερη αναθεώρηση και μπορεί να λειτουργήσει ακούραστα χωρίς να αποστασιοποιηθεί”, γράψτε Wei και Team.

Επίσης: Οι βαθιές μελέτες του OpenAI μπορούν να σας εξοικονομήσουν ώρες εργασίας – και τώρα είναι πολύ φθηνότερο

Η Vei και η ομάδα βασίζονται στην προηγούμενη δουλειά τους από πέρυσι, “SimpleQ & A”, το οποίο ελέγχει την ικανότητα του AI να απαντήσει σε “σύντομες ερωτήσεις που αναζητούν γεγονότα”. Οι ερωτήσεις καλύφθηκαν από τηλεοπτικές και ταινίες, επιστήμη, ιστορία, μουσική, βιντεοπαιχνίδια, πολιτική και άλλα θέματα.

Το Browsecomp από 1266 ερωτήσεις έχει σχεδιαστεί για να υπερβαίνει την απλή αναζήτηση πληροφοριών, την έκθεση των συγγραφέων. Αντ ‘αυτού, αυτά είναι ερωτήματα για τα οποία είναι δύσκολο να βρεθούν απαντήσεις, όπως το έθεσαν, “περίπλοκο επειδή απαιτούν την αναζήτηση σε ένα μεγάλο χώρο πιθανών απαντήσεων και τη σύγκρισή τους με τους περιορισμούς που τίθενται στην ερώτηση” και “είναι δύσκολο να εξαλειφθούν βαθιά σύγχυση στο Διαδίκτυο”.

Για παράδειγμα, ένα ζευγάρι ερωτήσεων-απαντήσεων έχει ως εξής:

Προσδιορίστε το όνομα της μελέτης που δημοσιεύθηκε μέχρι τον Ιούνιο του 2023, το οποίο αναφέρει τις πολιτιστικές παραδόσεις, τις επιστημονικές διαδικασίες και τις μαγειρικές καινοτομίες. Αυτός είναι ο συν-συγγραφέας τριών ατόμων: ένας από αυτούς ήταν βοηθός καθηγητής στη Δυτική Βεγγάλη και ο άλλος είναι η Aode of Philosophy.
(Απάντηση: Βασικές αρχές του ψωμιού μαγειρέματος: Επιστήμη για το ψωμί)

Τονίζουν ότι ένα τέτοιο ερώτημα είναι εύκολο να ελεγχθεί, επειδή η απάντηση περιέχεται σε μία φράση, η οποία είναι “αυτόνομη”.

OpenAI-2025-Browsecomp-Sample-quietstion-onswer-pars

Ανοικτός

Οι ερωτήσεις και οι απαντήσεις αναπτύχθηκαν από ανθρώπινους “προπονητές” και επιλέχθηκαν ως αδύνατο για επίλυση μόνο χρησιμοποιώντας το CATGPT OpenAI, με ή χωρίς προβολή. Οι ερωτήσεις ήταν επίσης αδύνατο για την “πρώιμη έκδοση” της βαθιάς έρευνας.

Δείχνοντας πώς οι αδύναμοι άνθρωποι αναζητούν το Διαδίκτυο, έλεγξαν για πρώτη φορά άτομα που ήταν “εξοικειωμένοι με το σύνολο δεδομένων” για να απαντήσουν σε ερωτήσεις.

OpenAI-2025-Humans-up-asday-Hard-Hard-Answer-Questions

Ανοικτός

Τα αποτελέσματα δεν ήταν καλά για τους ανθρώπους. Για το 70% των ερωτήσεων, οι άνθρωποι παραδόθηκαν μετά από δύο ώρες προσπάθειας. Απάντησαν μόνο περίπου το 30% των ερωτήσεων και κατά 14% των προτάσεων των απαντήσεων, οι προτάσεις των ανθρώπων Δεν το έκανα Συγκρίνετε την πραγματική απάντηση.

Η Vei και η ομάδα υποδηλώνουν ότι τα άτομα με υψηλότερες δεξιότητες αναζήτησης μπορούν να επιτύχουν μεγαλύτερη επιτυχία: “Είναι πιθανό ότι πολλά από τα προβλήματα που αρνήθηκαν θα επιλυθούν από έμπειρους επαγγελματίες (για παράδειγμα, ντετέκτιβ ή δημοσιογράφους -ερευνητικά) με αρκετό χρόνο”.

OpenAI-2025-Browsecomp-Ccuracy και βαθμονόμηση

Ανοικτός

Μετά από τους ανθρώπους, έλεγξαν βαθιά έρευνα ενάντια στο GPT-4O OpenAI (με τη δυνατότητα να βλέπουν και χωρίς αυτό), GPT-4.5 και μοντέλα O1.

Τα αποτελέσματα ήταν τρομερά. “Οι GPT-4O και GPT-4.5 έφθασαν σχεδόν μηδενική ακρίβεια, υπογραμμίζοντας την πολυπλοκότητα του προτύπου”, γράφουν. “Χωρίς ειδική συλλογιστική ή χρήση εργαλείων, τα μοντέλα δεν μπορούν να εξαγάγουν τους τύπους ασαφείς, πολλαπλές πληροφορίες.

Το O1 έγινε καλύτερο αυτό “[suggests] ότι μερικές απαντήσεις στο Browecomp μπορούν να δοθούν μέσω του συμπεράσματος σχετικά με την εσωτερική γνώση. «

Επίσης: AI απελευθερώνει πιο προηγμένη απάτη. Αυτό πρέπει να δώσετε προσοχή (και πώς να παραμείνετε προστατευμένοι)

Με αξιολόγηση 51,5%, οι βαθιές μελέτες ήταν “πολύ καλύτερες” και “είναι ιδιαίτερα αποτελεσματικό να απαντήσουμε σε εξειδικευμένες, μη διαισθητικές ερωτήσεις που απαιτούν προβολή πολλών ιστότοπων”, γράφουν ο Wei και η ομάδα.

Παρ ‘όλα αυτά, διαπίστωσαν επίσης ότι το GPT-4O χρησιμοποιώντας την προβολή και τη βαθιά έρευνα μπορεί να είναι λάθος, να είναι “αυτοπεποίθηση” σχετικά με λανθασμένες απαντήσεις που ονομάζονται σφάλμα βαθμονόμησης.

“Τα μοντέλα με δυνατότητες προβολής, όπως το GPT-4O, με προβολή και βαθιά έρευνα, αποδεικνύουν ένα υψηλότερο σφάλμα βαθμονόμησης”, γράφουν, “το θέμα ότι η πρόσβαση στα εργαλεία ιστού μπορεί να αυξήσει την εμπιστοσύνη του μοντέλου σε άπιστους.

Για να διορθώσουν το σφάλμα βαθμονόμησης, διεξήγαγαν μια άλλη δοκιμή με βαθιά έρευνα, στην οποία το μοντέλο έπρεπε να φέρει μέχρι και 64 απαντήσεις σε κάθε ερώτηση. Τότε είχαν ένα μοντέλο επέλεξε το καλύτερο από αυτά. Όταν συνέβη αυτό, οι βαθιές μελέτες ήταν αρκετά καλές στην επιλογή της σωστής απάντησης μεταξύ όλων των προτάσεων.

OpenAI-2025-best-n-n-ncaling-ccuracy

Ανοικτός

Αυτό, γράψτε στον Vey και στην ομάδα, υποδηλώνει ότι το “μοντέλο συχνά” γνωρίζει “όταν είναι σωστό, ακόμα κι αν αγωνίζεται να εκφράσει αυτή την εμπιστοσύνη ως βαθμονομημένη πιθανότητα”.

Επίσης: Το τελευταίο τσιπ Google αφορά τη μείωση ενός τεράστιου κρυμμένου κόστους στην τεχνητή νοημοσύνη

Related posts

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

Αυτός ο κρυμμένος ρυθμιστής Google Earth σας επιτρέπει να ταξιδεύετε εγκαίρως – έως και 80 χρόνια. Πώς να δοκιμάσετε

May 15, 2025
Αυτός ο σταθμός ηλεκτροπαραγωγής κρατούσε το φως μου κατά τη διάρκεια του τερματισμού την περασμένη εβδομάδα – και μόλις έπεσε $ 900

Αυτός ο σταθμός ηλεκτροπαραγωγής κρατούσε το φως μου κατά τη διάρκεια του τερματισμού την περασμένη εβδομάδα – και μόλις έπεσε $ 900

May 15, 2025

Σημειώνουν επίσης ότι η επιτυχία των βαθιών μελετών βελτιώνεται με την προσθήκη περισσότερων υπολογισμών, προσθέτοντας σε αυτό κατά την αναζήτηση στο Διαδίκτυο. Χρήση, “Η παραγωγικότητα ομαλά ανάλογα με το ποσό του χρόνου δοκιμής που χρησιμοποιείται”. Πρόκειται για ένα τετράγωνο με αυξανόμενη τάση για να πετάξετε περισσότερες μάρκες του γραφικού επεξεργαστή στο έργο της παραγωγής.

OpenAI-2025-Browsecomp-Test-Time-Curacy Scaling

Ανοικτός

Η Vei και η ομάδα δεν δίνουν άμεσα καμία υπόθεση για το γιατί οι βαθιές μελέτες αποτυγχάνουν σχεδόν το ήμισυ του χρόνου, αλλά η σιωπηρή απάντηση είναι να κλιμακώσει την ικανότητά της με μεγάλο αριθμό υπολογισμών. Όταν εκτελούν περισσότερα παράλληλα καθήκοντα και ζητούν από το μοντέλο να αξιολογήσουν διάφορες απαντήσεις, η ακρίβεια επηρεάζει το 75% της αντίδρασης.

Είναι κατανοητό ότι είναι σημαντικό να επιλέξετε στρατηγικές που αναγκάζουν το μοντέλο αξιολογώ Τις δικές του προσπάθειες, και όχι μόνο να επιδιώξουν μια απάντηση. Χωρίς αυτό το στάδιο, το μοντέλο αγωνίζεται πολύ χρόνο.

Επίσης: με μοντέλα τεχνητής νοημοσύνης

Οι συγγραφείς παραδέχονται ότι μια μεγάλη τρύπα στο Browsecomp είναι ότι περιορίζεται από ερωτήσεις που είναι εύκολο να κατανοήσουν τον υπολογιστή και των οποίων οι απαντήσεις είναι εύκολο να ελέγξουν. Καμία από τις 1266 ερωτήσεις δεν περιελάμβανε “μεγάλες απαντήσεις ή τη δυνατότητα επίλυσης ασάφειας στα ερωτήματα χρηστών”.

Ως αποτέλεσμα, το Browsecomp, λένε, ελέγξτε τις “κύριες” λειτουργίες των πράκτορων AI, αλλά δεν είναι ολοκληρωμένες. “Το μοντέλο θα πρέπει να είναι πολύ έμπειρο στην αναζήτηση για τα θραύσματα των πληροφοριών που δεν είναι εγγυημένο ότι αυτό γενικεύει όλα τα καθήκοντα που απαιτούν προβολή”.

Οι βαθιές μελέτες είναι διαθέσιμες στους χρήστες OpenAI Plus και Pro Ppociptions.

Θέλετε περισσότερες ιστορίες για το AI; Εγγραφείτε για καινοτομίαΗ εβδομαδιαία ψηφοφορία πληροφόρησης.

Previous Post

Τα καλύτερα οφέλη για τους ήρωες υποστήριξης

Next Post

Ασιατικές αγορές: Ιαπωνία ΔΤΚ, τιμολόγια του Trump

Next Post
Ασιατικές αγορές: Ιαπωνία ΔΤΚ, τιμολόγια του Trump

Ασιατικές αγορές: Ιαπωνία ΔΤΚ, τιμολόγια του Trump

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

RECOMMENDED NEWS

Μπόνους X-Men Debate Pages κρυμμένες πίσω από κωδικούς QR

Μπόνους X-Men Debate Pages κρυμμένες πίσω από κωδικούς QR

10 months ago
Το 27% των λιστών κενών θέσεων για τους οικονομικούς διευθυντές αναφέρουν τώρα το AI

Το 27% των λιστών κενών θέσεων για τους οικονομικούς διευθυντές αναφέρουν τώρα το AI

3 months ago
Η επιθυμία του Gambhir για το Chakravarti ή το Rochita για την υποστήριξη του Kuldip – ποιος θα κερδίσει έναν αγώνα για έναν τόπο εναντίον του Μπαγκλαντές;

Η επιθυμία του Gambhir για το Chakravarti ή το Rochita για την υποστήριξη του Kuldip – ποιος θα κερδίσει έναν αγώνα για έναν τόπο εναντίον του Μπαγκλαντές;

3 months ago
Έχω επιλέξει 21+ καλύτερα ακουστικά Amazon Spring.

Έχω επιλέξει 21+ καλύτερα ακουστικά Amazon Spring.

2 months ago

BROWSE BY CATEGORIES

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

POPULAR NEWS

  • Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

    Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

    0 shares
    Share 0 Tweet 0
  • Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    0 shares
    Share 0 Tweet 0
  • Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

    0 shares
    Share 0 Tweet 0
  • Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

    0 shares
    Share 0 Tweet 0
  • 7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

    0 shares
    Share 0 Tweet 0

Our mission is to deliver accurate, timely, and comprehensive news coverage that keeps our readers informed and engaged. We strive to provide a balanced perspective on the latest events and issues shaping our world, offering insightful analysis and in-depth reporting on a wide range of topics.

Follow us on social media:

Recent News

  • Προστατευμένος: Ο υπολογιστής χρειάζεται θερμίδες
  • Την επόμενη χρονιά, η παραγόμενη AD SLOP AI θα εμφανιστεί στο Netflix.
  • Η αόρατη τεχνική επανάσταση είναι έτοιμη να κάνει πραγματικές αγορές στον τομέα της τεχνητής τέχνης

Category

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

World News

30+ ταινίες WB είναι τώρα δωρεάν στο YouTube, συμπεριλαμβανομένου του Pluto Nash

30+ ταινίες WB είναι τώρα δωρεάν στο YouTube, συμπεριλαμβανομένου του Pluto Nash

February 5, 2025
Η Bank of America λέει ότι αγοράστε το απόθεμα αυτού του γυμναστηρίου λόγω της δημοτικότητας του Pickleball

Η Bank of America λέει ότι αγοράστε το απόθεμα αυτού του γυμναστηρίου λόγω της δημοτικότητας του Pickleball

September 7, 2024
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer

© 2024 My Ai Innovations . All Rights Reserved.

No Result
View All Result
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Lifestyle
  • Sports
  • Travel

© 2024 My Ai Innovations . All Rights Reserved.