
Ο διαγωνισμός για τη δημιουργία των καλύτερων μοντέλων τεχνητής νοημοσύνης στον κόσμο έχει γίνει κάτι σαν ένας αγώνας, ένα μάτσο άξια αντιπάλων ο ένας στον άλλο και όλο και λιγότερο από μια σαφή νίκη.
Σύμφωνα με τους επιστήμονες του Ινστιτούτου Τεχνητής Νοημοσύνης, που επικεντρώθηκε σε ένα πρόσωπο του Πανεπιστημίου του Στάνφορντ, ο αριθμός των αιτούντων στα μοντέλα των “συνόρων” ή “ίδρυμα” έχει επεκταθεί σημαντικά τα τελευταία χρόνια, αλλά η διαφορά μεταξύ των καλύτερων και των ασθενέστερων έχει επίσης μειωθεί σημαντικά.
Το 2024, “Η διαφορά στην αξιολόγηση του ELO μεταξύ του μοντέλου των ηγετών chatbot-arena στην πρώτη βαθμολογία είναι 10,9%. Από τις αρχές του 2025, αυτό το χάσμα μειώθηκε μόνο κατά 5,4%”, “γράψτε τον Rishi Bommasani και την ομάδα στον δείκτη 2025 του 2025”.
Επίσης: Είναι το Openai Doom; Τα μοντέλα ανοιχτού κώδικα μπορούν να το συντρίψουν, ο εμπειρογνώμονας το προειδοποιεί
Το κεφάλαιο για τους τεχνικούς δείκτες του Bommasani και των συναδέλφων τους επικοινωνεί ότι το 2022, όταν εμφανίστηκε για πρώτη φορά το ChatGPT, η OpenAI και η Google κυριάρχησαν στα κύρια μεγάλα μοντέλα γλωσσών. Αυτό το πεδίο περιλαμβάνει τώρα το κινεζικό AI Deepseek AI, το Elon Musk του Xai, το Meta Meta Meta AI και το AISTRAL AI.
“Το τοπίο AI γίνεται όλο και πιο ανταγωνιστικό: τα μοντέλα υψηλής ποιότητας είναι τώρα διαθέσιμα από τον αυξανόμενο αριθμό προγραμματιστών”, γράφουν.
Το χάσμα μεταξύ OpenAI και Google έχει μειωθεί ακόμη περισσότερο, και η οικογένεια GPT και τα δίδυμα έχουν διαφορά απόδοσης μόνο κατά 0,7%, σε σύγκριση με 4,9% το 2023.
Σύμφωνα με τον Bommasani, η ταυτόχρονη τάση είναι η ανάπτυξη της τεχνητής νοημοσύνης “ανοιχτό βάρος”, όπως οι πλατφόρμες Meta Lama, οι οποίες σε ορισμένες περιπτώσεις μπορούν να συγκριθούν με τα καλύτερα “κλειστά” μοντέλα όπως η GPT.
Τα μοντέλα ανοικτών βάρους είναι εκείνα όπου τα εκπαιδευμένα βάρη των νευρωνικών δικτύων, η καρδιά της ικανότητάς τους να μετατραπούν σε είσοδο στο συμπέρασμα, είναι διαθέσιμες για φόρτωση. Μπορούν να χρησιμοποιηθούν για να επαληθεύσουν και να αναπαράγουν το μοντέλο AI χωρίς πρόσβαση στις πραγματικές οδηγίες μοντέλου. Τα κλειστά μοντέλα δεν παρέχουν πρόσβαση του κοινού σε βάρη και επομένως τα μοντέλα παραμένουν κάτι σαν ένα μαύρο κουτί, όπως στην περίπτωση των GPT και Gemini.
“Στις αρχές Ιανουαρίου 2024, το κορυφαίο μοντέλο με κλειστό βάρος ξεπέρασε το μέγιστο μοντέλο ανοικτού βάρους κατά 8,0%.
Επίσης: Το Gemini Pro 2.5 είναι ένας εκπληκτικά ικανός βοηθός κωδικοποίησης – και μια μεγάλη απειλή για το chatgpt
Από το 2023, όταν “τα μοντέλα με κλειστά βάρη είναι συνεχώς συγκλονισμένα από ανοικτούς συναδέλφους σε σχεδόν κάθε κύριο πρότυπο”, συνδέονται, το χάσμα μεταξύ του κλειστού και του ανοιχτού έχει μειωθεί από 15,9 σημεία σε “μόνο 0,1 ποσοστιαίες μονάδες” στο τέλος του 2024, κυρίως το αποτέλεσμα της έκδοσης 3,1 μετα -3.1.
Ένα άλλο νήμα, το οποίο εμφανίζεται μοντέλα μοίρα με ανοιχτό βάρος, είναι τα εκπληκτικά επιτεύγματα των μικρότερων μεγάλων γλωσσικών μοντέλων. Τα μοντέλα AI, κατά κανόνα, ταξινομούνται με βάση τον αριθμό των κλιμάκων που χρησιμοποιούν με τη μεγαλύτερη δημόσια αποκάλυψη στο Meta LLAMA 4, χρησιμοποιώντας δύο τρισεκατομμύρια βάρους.
“Το 2024 ήταν ένα χρονικό διάστημα για μικρά μοντέλα τεχνητής νοημοσύνης”, γράφει ο Bommasani και η ομάδα. “Σχεδόν κάθε σημαντικός προγραμματιστής AI παρήγαγε συμπαγή μοντέλα υψηλής απόδοσης, συμπεριλαμβανομένων των GPT-4O Mini, O1-Mini, Gemini 2.0 Flash, Llama 3.1 8b και Mistral Small 3,5”.
Η Bommasani και η ομάδα δεν κάνουν προβλέψεις για το τι θα συμβεί περαιτέρω σε ένα πολυσύχναστο πεδίο, αλλά βλέπουν πολύ πιεστικές ανησυχίες για τις δοκιμές που χρησιμοποιούνται για την αξιολόγηση μεγάλων γλωσσικών μοντέλων.
Αυτές οι δοκιμές γίνονται κορεσμένες – ακόμη και μερικές από τις πιο απαιτητικές, όπως το πρότυπο του HumanVal, που δημιουργήθηκαν το 2021 OpenAI για να δοκιμάσουν τα μοντέλα που κωδικοποιούν δεξιότητες. Αυτό επιβεβαιώνει το συναίσθημα που παρατηρείται σε ολόκληρη τη βιομηχανία αυτές τις μέρες: γίνεται όλο και πιο δύσκολο να συγκριθεί με ακρίβεια και αυστηρά τα νέα μοντέλα του AI.
Επίσης: Με μοντέλα τεχνητής νοημοσύνης με κάθε πρότυπο, έχει έρθει η ώρα να αξιολογήσει ένα άτομο
Σε απάντηση, δώστε προσοχή στους συγγραφείς, ο τομέας έχει αναπτύξει νέους τρόπους για τη δημιουργία δοκιμών ελέγχου, όπως η τελευταία εξέταση ανθρωπότητας, στις οποίες προκύπτουν ερωτήματα που συντονίζονται στο άτομο που διατυπώνεται από εμπειρογνώμονες για το θέμα. Και Arena-hard-auto, μια δοκιμή που δημιουργήθηκε από ένα μη εμπορικό μεγάλο μοντέλο Corp., χρησιμοποιώντας κορώνες του Crownsing, οι οποίες εποπτεύονται αυτόματα για πολυπλοκότητα.
Οι συγγραφείς σημειώνουν ότι μία από τις πιο πολύπλοκες δοκιμές είναι η δοκιμή ARC-AGI για την αναζήτηση οπτικών νόμων. Αυτό εξακολουθεί να είναι μια σκληρή δοκιμασία, αν και το Mini του Δεκεμβρίου το Mini πέτυχε.
Η σκληρότητα του τυπικού επηρεάζει το μοντέλο του AI προς το καλύτερο, γράφουν. “Βελτίωση φέτος [by o3 mini] Προσφέρετε μια μετατόπιση στο επίκεντρο σε πιο σημαντικά επιτεύγματα στη γενίκευση και τις δυνατότητες της αναζήτησης μεταξύ των μοντέλων AI, γράφουν.
Οι συγγραφείς σημειώνουν ότι η δημιουργία δεικτών ελέγχου δεν είναι εύκολη. Από τη μία πλευρά, υπάρχει ένα μοντέλο “ρύπανσης” όπου τα νευρωνικά δίκτυα εκπαιδεύονται σε δεδομένα που τελικά χρησιμοποιούνται ως δοκιμαστικές ερωτήσεις, όπως ένας φοιτητής που έχει πρόσβαση σε απαντήσεις πριν από την εξέταση.
Επίσης: Η τελευταία εξέταση ανθρωπότητας είναι η κορυφή των μοντέλων AI, μπορείτε να κάνετε καλύτερα;
Και πολλές δοκιμές είναι απλά κακώς χτισμένες, γράφουν. “Παρά την ευρεία χρήση, οι δοκιμές, όπως η MMLU, έδειξαν πρότυπα κακής ποιότητας, ενώ άλλα, όπως το GPQA, εργάστηκαν πολύ καλύτερα”, δήλωσε ο Stanford, που ονομάζεται Betterbench, σε μια ευρεία μελέτη.
Η Bommasani και η ομάδα καταλήγουν στο συμπέρασμα ότι η τυποποίηση μεταξύ των κριτηρίων είναι σημαντική στο μέλλον. “Αυτά τα αποτελέσματα υπογραμμίζουν την ανάγκη για τυποποιημένη συγκριτική ανάλυση για να εξασφαλιστεί μια αξιόπιστη αξιολόγηση του AI και να αποτρέψει τα συμπεράσματα σχετικά με την παραγωγικότητα του μοντέλου”, γράφουν. “Τα στοιχεία έχουν τη δυνατότητα για το σχηματισμό πολιτικών αποφάσεων και τον αντίκτυπο στην απόφαση στις προμήθειες σε οργανισμούς, δίνοντας έμφαση στη σημασία της συνέπειας και της σοβαρότητας της αξιολόγησης”.
Θέλετε περισσότερες ιστορίες για το AI; Εγγραφείτε για καινοτομίαΗ εβδομαδιαία ψηφοφορία πληροφόρησης.