Σύμφωνα με τους επιστήμονες του Stanford, ο αγώνας μοντέλου AI ξαφνικά έγινε πολύ πιο κοντά.

Stanford-Khai-ay-andex-2025-Fig-2-1-39 — Πανεπιστήμιο του Στάνφορντ

Ο διαγωνισμός για τη δημιουργία των καλύτερων μοντέλων τεχνητής νοημοσύνης στον κόσμο έχει γίνει κάτι σαν ένας αγώνας, ένα μάτσο άξια αντιπάλων ο ένας στον άλλο και όλο και λιγότερο από μια σαφή νίκη.

Σύμφωνα με τους επιστήμονες του Ινστιτούτου Τεχνητής Νοημοσύνης, που επικεντρώθηκε σε ένα πρόσωπο του Πανεπιστημίου του Στάνφορντ, ο αριθμός των αιτούντων στα μοντέλα των “συνόρων” ή “ίδρυμα” έχει επεκταθεί σημαντικά τα τελευταία χρόνια, αλλά η διαφορά μεταξύ των καλύτερων και των ασθενέστερων έχει επίσης μειωθεί σημαντικά.

Το iOS 19 μπορεί να δώσει στο iPhone σας μια μεγάλη ενημέρωση για τη διάρκεια ζωής της μπαταρίας – χωρίς να χρειάζεται να κάνετε κάτι

May 18, 2025

Αυτός είναι ο καλύτερος πνευματικός θερμαντήρας, τον οποίο χρησιμοποιούσα – και τώρα είναι προς πώληση

May 18, 2025

Το 2024, “Η διαφορά στην αξιολόγηση του ELO μεταξύ του μοντέλου των ηγετών chatbot-arena στην πρώτη βαθμολογία είναι 10,9%. Από τις αρχές του 2025, αυτό το χάσμα μειώθηκε μόνο κατά 5,4%”, “γράψτε τον Rishi Bommasani και την ομάδα στον δείκτη 2025 του 2025”.

Επίσης: Είναι το Openai Doom; Τα μοντέλα ανοιχτού κώδικα μπορούν να το συντρίψουν, ο εμπειρογνώμονας το προειδοποιεί

Το κεφάλαιο για τους τεχνικούς δείκτες του Bommasani και των συναδέλφων τους επικοινωνεί ότι το 2022, όταν εμφανίστηκε για πρώτη φορά το ChatGPT, η OpenAI και η Google κυριάρχησαν στα κύρια μεγάλα μοντέλα γλωσσών. Αυτό το πεδίο περιλαμβάνει τώρα το κινεζικό AI Deepseek AI, το Elon Musk του Xai, το Meta Meta Meta AI και το AISTRAL AI.

“Το τοπίο AI γίνεται όλο και πιο ανταγωνιστικό: τα μοντέλα υψηλής ποιότητας είναι τώρα διαθέσιμα από τον αυξανόμενο αριθμό προγραμματιστών”, γράφουν.

Το χάσμα μεταξύ OpenAI και Google έχει μειωθεί ακόμη περισσότερο, και η οικογένεια GPT και τα δίδυμα έχουν διαφορά απόδοσης μόνο κατά 0,7%, σε σύγκριση με 4,9% το 2023.

Σύμφωνα με τον Bommasani, η ταυτόχρονη τάση είναι η ανάπτυξη της τεχνητής νοημοσύνης “ανοιχτό βάρος”, όπως οι πλατφόρμες Meta Lama, οι οποίες σε ορισμένες περιπτώσεις μπορούν να συγκριθούν με τα καλύτερα “κλειστά” μοντέλα όπως η GPT.

Stanford-Khai-ay-andex-2025-Fig-2-1-34 — Πανεπιστήμιο του Στάνφορντ

Τα μοντέλα ανοικτών βάρους είναι εκείνα όπου τα εκπαιδευμένα βάρη των νευρωνικών δικτύων, η καρδιά της ικανότητάς τους να μετατραπούν σε είσοδο στο συμπέρασμα, είναι διαθέσιμες για φόρτωση. Μπορούν να χρησιμοποιηθούν για να επαληθεύσουν και να αναπαράγουν το μοντέλο AI χωρίς πρόσβαση στις πραγματικές οδηγίες μοντέλου. Τα κλειστά μοντέλα δεν παρέχουν πρόσβαση του κοινού σε βάρη και επομένως τα μοντέλα παραμένουν κάτι σαν ένα μαύρο κουτί, όπως στην περίπτωση των GPT και Gemini.

“Στις αρχές Ιανουαρίου 2024, το κορυφαίο μοντέλο με κλειστό βάρος ξεπέρασε το μέγιστο μοντέλο ανοικτού βάρους κατά 8,0%.

Επίσης: Το Gemini Pro 2.5 είναι ένας εκπληκτικά ικανός βοηθός κωδικοποίησης – και μια μεγάλη απειλή για το chatgpt

Από το 2023, όταν “τα μοντέλα με κλειστά βάρη είναι συνεχώς συγκλονισμένα από ανοικτούς συναδέλφους σε σχεδόν κάθε κύριο πρότυπο”, συνδέονται, το χάσμα μεταξύ του κλειστού και του ανοιχτού έχει μειωθεί από 15,9 σημεία σε “μόνο 0,1 ποσοστιαίες μονάδες” στο τέλος του 2024, κυρίως το αποτέλεσμα της έκδοσης 3,1 μετα -3.1.

Ένα άλλο νήμα, το οποίο εμφανίζεται μοντέλα μοίρα με ανοιχτό βάρος, είναι τα εκπληκτικά επιτεύγματα των μικρότερων μεγάλων γλωσσικών μοντέλων. Τα μοντέλα AI, κατά κανόνα, ταξινομούνται με βάση τον αριθμό των κλιμάκων που χρησιμοποιούν με τη μεγαλύτερη δημόσια αποκάλυψη στο Meta LLAMA 4, χρησιμοποιώντας δύο τρισεκατομμύρια βάρους.

Stanford-Khai-ay-andex-2025-Fig-2-1-38 — Πανεπιστήμιο του Στάνφορντ

“Το 2024 ήταν ένα χρονικό διάστημα για μικρά μοντέλα τεχνητής νοημοσύνης”, γράφει ο Bommasani και η ομάδα. “Σχεδόν κάθε σημαντικός προγραμματιστής AI παρήγαγε συμπαγή μοντέλα υψηλής απόδοσης, συμπεριλαμβανομένων των GPT-4O Mini, O1-Mini, Gemini 2.0 Flash, Llama 3.1 8b και Mistral Small 3,5”.

Η Bommasani και η ομάδα δεν κάνουν προβλέψεις για το τι θα συμβεί περαιτέρω σε ένα πολυσύχναστο πεδίο, αλλά βλέπουν πολύ πιεστικές ανησυχίες για τις δοκιμές που χρησιμοποιούνται για την αξιολόγηση μεγάλων γλωσσικών μοντέλων.

Αυτές οι δοκιμές γίνονται κορεσμένες – ακόμη και μερικές από τις πιο απαιτητικές, όπως το πρότυπο του HumanVal, που δημιουργήθηκαν το 2021 OpenAI για να δοκιμάσουν τα μοντέλα που κωδικοποιούν δεξιότητες. Αυτό επιβεβαιώνει το συναίσθημα που παρατηρείται σε ολόκληρη τη βιομηχανία αυτές τις μέρες: γίνεται όλο και πιο δύσκολο να συγκριθεί με ακρίβεια και αυστηρά τα νέα μοντέλα του AI.

Επίσης: Με μοντέλα τεχνητής νοημοσύνης με κάθε πρότυπο, έχει έρθει η ώρα να αξιολογήσει ένα άτομο

Σε απάντηση, δώστε προσοχή στους συγγραφείς, ο τομέας έχει αναπτύξει νέους τρόπους για τη δημιουργία δοκιμών ελέγχου, όπως η τελευταία εξέταση ανθρωπότητας, στις οποίες προκύπτουν ερωτήματα που συντονίζονται στο άτομο που διατυπώνεται από εμπειρογνώμονες για το θέμα. Και Arena-hard-auto, μια δοκιμή που δημιουργήθηκε από ένα μη εμπορικό μεγάλο μοντέλο Corp., χρησιμοποιώντας κορώνες του Crownsing, οι οποίες εποπτεύονται αυτόματα για πολυπλοκότητα.

Οι συγγραφείς σημειώνουν ότι μία από τις πιο πολύπλοκες δοκιμές είναι η δοκιμή ARC-AGI για την αναζήτηση οπτικών νόμων. Αυτό εξακολουθεί να είναι μια σκληρή δοκιμασία, αν και το Mini του Δεκεμβρίου το Mini πέτυχε.

Η σκληρότητα του τυπικού επηρεάζει το μοντέλο του AI προς το καλύτερο, γράφουν. “Βελτίωση φέτος [by o3 mini] Προσφέρετε μια μετατόπιση στο επίκεντρο σε πιο σημαντικά επιτεύγματα στη γενίκευση και τις δυνατότητες της αναζήτησης μεταξύ των μοντέλων AI, γράφουν.

Οι συγγραφείς σημειώνουν ότι η δημιουργία δεικτών ελέγχου δεν είναι εύκολη. Από τη μία πλευρά, υπάρχει ένα μοντέλο “ρύπανσης” όπου τα νευρωνικά δίκτυα εκπαιδεύονται σε δεδομένα που τελικά χρησιμοποιούνται ως δοκιμαστικές ερωτήσεις, όπως ένας φοιτητής που έχει πρόσβαση σε απαντήσεις πριν από την εξέταση.

Επίσης: Η τελευταία εξέταση ανθρωπότητας είναι η κορυφή των μοντέλων AI, μπορείτε να κάνετε καλύτερα;

Και πολλές δοκιμές είναι απλά κακώς χτισμένες, γράφουν. “Παρά την ευρεία χρήση, οι δοκιμές, όπως η MMLU, έδειξαν πρότυπα κακής ποιότητας, ενώ άλλα, όπως το GPQA, εργάστηκαν πολύ καλύτερα”, δήλωσε ο Stanford, που ονομάζεται Betterbench, σε μια ευρεία μελέτη.

Η Bommasani και η ομάδα καταλήγουν στο συμπέρασμα ότι η τυποποίηση μεταξύ των κριτηρίων είναι σημαντική στο μέλλον. “Αυτά τα αποτελέσματα υπογραμμίζουν την ανάγκη για τυποποιημένη συγκριτική ανάλυση για να εξασφαλιστεί μια αξιόπιστη αξιολόγηση του AI και να αποτρέψει τα συμπεράσματα σχετικά με την παραγωγικότητα του μοντέλου”, γράφουν. “Τα στοιχεία έχουν τη δυνατότητα για το σχηματισμό πολιτικών αποφάσεων και τον αντίκτυπο στην απόφαση στις προμήθειες σε οργανισμούς, δίνοντας έμφαση στη σημασία της συνέπειας και της σοβαρότητας της αξιολόγησης”.

Θέλετε περισσότερες ιστορίες για το AI; Εγγραφείτε για καινοτομίαΗ εβδομαδιαία ψηφοφορία πληροφόρησης.

Σύμφωνα με τους επιστήμονες του Stanford, ο αγώνας μοντέλου AI ξαφνικά έγινε πολύ πιο κοντά.

Related posts

Το iOS 19 μπορεί να δώσει στο iPhone σας μια μεγάλη ενημέρωση για τη διάρκεια ζωής της μπαταρίας – χωρίς να χρειάζεται να κάνετε κάτι

Αυτός είναι ο καλύτερος πνευματικός θερμαντήρας, τον οποίο χρησιμοποιούσα – και τώρα είναι προς πώληση

Το Big Xbox Summer Showcase θα προμηθεύσει 2025 σκηνές Sci-Fi RPG Center

Το Rajasthan επιδιώκει 218 μετά από 82 εξουσίες του Sudharsan Gujarat Titan στο 217/6

Το Rajasthan επιδιώκει 218 μετά από 82 εξουσίες του Sudharsan Gujarat Titan στο 217/6

Leave a Reply Cancel reply

RECOMMENDED NEWS

6 Υπέροχα παιχνίδια που ανυπομονούμε να παίξουμε αυτό το Σαββατοκύριακο

Κ.Ι. Ο Rahul εγκαταλείπει τον πρώην αφεντικό Sanjiv Genka αφού ώθησε την περιοχή της Κολομβίας να κερδίσει το LSG

Οι καλύτερες ομάδες της κονσόλας στον υπολογιστή

Αντικατέστησα το iPhone 16 Pro με 16E για το Σαββατοκύριακο – αυτό είναι το μόνο που ανακάλυψα

BROWSE BY CATEGORIES

POPULAR NEWS

Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

Recent News

Category

World News

Μην αντικαθιστάτε τιμολόγια για φόρο εισοδήματος: θα λάβετε και τα δύο

Το GameStop αναφέρει απροσδόκητα κέρδη παρά τη μείωση των πωλήσεων