
Η αγορά τεχνητής νοημοσύνης-και ολόκληρη η χρηματιστηριακή αγορά-σοκαρισμένη τη Δευτέρα, η ξαφνική δημοτικότητα του Deepseek, ενός μεγάλου γλωσσικού μοντέλου με ανοιχτή πηγή, που αναπτύχθηκε από ένα κινεζικό αμοιβαίο κεφάλαιο, το οποίο ξεπέρασε καλύτερα το OpenAI σε ορισμένα καθήκοντα, ενώ το κόστος είναι πολύ λιγότερο.
Επίσης: Ελέγχω τις δεξιότητες της κωδικοποίησης Deepseek AI – εκεί που έπεσε
Όπως δήλωσε λεπτομερώς ο Zdnet Radhika Rajkumar τη Δευτέρα, η επιτυχία του R1 δίνει έμφαση στη θάλασσα με αλλαγή στην τεχνητή νοημοσύνη, η οποία μπορεί να επιτρέψει στα μικρά εργαστήρια και τους ερευνητές να δημιουργήσουν ανταγωνιστικά μοντέλα και να διαφοροποιήσουν την περιοχή των προσβάσιμων επιλογών.
Γιατί λειτουργεί το Deepseek τόσο καλά;
Αποδεικνύεται ότι πρόκειται για μια ευρεία προσέγγιση με τη μορφή βαθιάς εκπαίδευσης στην τεχνητή νοημοσύνη για να συμπιέσει περισσότερο από τσιπ υπολογιστών, χρησιμοποιώντας ένα φαινόμενο γνωστό ως “σπανιότητα”.
Η ανάλυση συμβαίνει σε πολλές μορφές. Μερικές φορές περιλαμβάνει την εξάλειψη των τμημάτων που χρησιμοποιεί το AI όταν αυτά τα δεδομένα δεν επηρεάζουν σημαντικά την έξοδο του μοντέλου AI.
Επίσης: Γιατί η κινεζική Deepseek θα μπορούσε να σπάσει τη φούσκα του AI
Σε άλλες περιπτώσεις, μπορεί να ενεργοποιήσει το κλείσιμο ολόκληρων τμημάτων του νευρικού δικτύου, εάν αυτό δεν επηρεάζει το τελικό αποτέλεσμα.
Το Deepseek είναι ένα παράδειγμα του τελευταίου: η οικονομική χρήση των νευρωνικών δικτύων.
Η κύρια πρόοδος, τα περισσότερα από τα οποία εντοπίστηκαν στο Deepseek, είναι ότι μπορεί να ενεργοποιηθεί και να απενεργοποιήσει τις μεγάλες περιοχές του βάρους του “βάρους” ή των “παραμέτρων”. Παράμετροι – Ποια είναι η μορφή ενός νευρικού δικτύου μπορεί να μετατρέψει την είσοδο – τον υπαινιγμό που εισάγετε – στο παραγόμενο κείμενο ή την εικόνα. Οι παράμετροι έχουν άμεσο αντίκτυπο στο πόσο χρόνο απαιτείται για την εκτέλεση υπολογισμών. Περισσότερες παράμετροι, περισσότερες προσπάθειες υπολογιστών, συνήθως.
Σπάνια και ο ρόλος της στην τεχνητή νοημοσύνη
Η δυνατότητα να χρησιμοποιείτε μόνο μερικές από τις γενικές παραμέτρους ενός μεγάλου γλωσσικού μοντέλου και να απενεργοποιήσετε το υπόλοιπο είναι ένα παράδειγμα αραιών. Αυτό το ανθεκτικό μπορεί να έχει σημαντικό αντίκτυπο στο πόσο μεγάλο ή μικρό, ο υπολογιστικός προϋπολογισμός για το μοντέλο AI.
Οι ερευνητές στην Apple, στην έκθεση την περασμένη εβδομάδα, εξηγούν καλά πόσο βαθιά και παρόμοιες προσεγγίσεις χρησιμοποιούν μια σπανιότητα για να έχουν τα καλύτερα αποτελέσματα για αυτόν τον όγκο υπολογιστικής ισχύος.
Η Apple δεν έχει καμία σχέση με το Deepseek, αλλά η Apple διεξάγει τακτικά τις δικές της μελέτες σε τακτική βάση και επομένως τα γεγονότα εξωτερικών εταιρειών όπως η Deepseek αποτελούν μέρος της συνεχούς συμμετοχής της Apple σε μελέτες τεχνητής νοημοσύνης, με ευρεία έννοια.
Σε ένα άρθρο με τίτλο “Παράμετροι κατά των αποτυχιών: Οι νόμοι της κλιμάκωσης για τη βέλτιστη σπανιότητα για το Mix-Loxpert του MIT, μελέτησε πώς η απόδοση ποικίλλει επειδή εκμεταλλεύτηκαν ανθεκτικά, απενεργοποιώντας τα τμήματα του νευρικού δικτύου.
Επίσης: Το νέο μοντέλο AI με τον κώδικα ανοιχτού κώδικα Deepseek μπορεί να ξεπεράσει το O1 για ένα μικρό μέρος του κόστους
Η Abnar και η ομάδα διεξήγαγαν την έρευνά τους χρησιμοποιώντας τη βιβλιοθήκη κωδικών που κυκλοφόρησε το 2023 από ερευνητές της τεχνητής νοημοσύνης στη Microsoft, Google και Stanford, που ονομάζεται Megablocks. Παρ ‘όλα αυτά, καθιστούν σαφές ότι η δουλειά τους ισχύει για το Deepseek και άλλες πρόσφατες καινοτομίες.
Ο Abnar και η ομάδα ρωτούν αν υπάρχει ένα “βέλτιστο” επίπεδο για την ανάλυση σε Deepseek και παρόμοια μοντέλα, πράγμα που σημαίνει ότι για αυτόν τον όγκο υπολογιστικής ισχύος υπάρχει η βέλτιστη ποσότητα αυτών των νευρικών βαρών για την ενεργοποίηση ή την απενεργοποίηση;
Αποδεικνύεται ότι μπορείτε να αξιολογήσετε πλήρως το ανθεκτικό ως το ποσοστό όλων των νευρικών βαρών που μπορείτε να κλείσετε και αυτό το ποσοστό πλησιάζει, αλλά ποτέ δεν ισούται με ένα 100% νευρωνικό δίκτυο, το οποίο είναι “ανενεργό”.
Τα γραφήματα δείχνουν ότι για αυτό το νευρωνικό δίκτυο, σε ένα δεδομένο ποσό του προϋπολογισμού υπολογιστών, υπάρχει μια βέλτιστη ποσότητα νευρωνικού δικτύου, το οποίο μπορεί να απενεργοποιηθεί για να επιτευχθεί ακρίβεια. Αυτός είναι ο ίδιος οικονομικός κανόνας που ισχύει για κάθε νέα γενιά προσωπικών υπολογιστών: είτε το καλύτερο αποτέλεσμα για τα ίδια χρήματα, είτε το ίδιο αποτέλεσμα για λιγότερα χρήματα.
Μήλο
Και αποδεικνύεται ότι για ένα νευρωνικό δίκτυο ενός δεδομένου μεγέθους στις γενικές παραμέτρους, με αυτόν τον αριθμό υπολογισμών, χρειάζεστε όλο και λιγότερες παραμέτρους για να επιτύχετε την ίδια ή καλύτερη ακρίβεια με αυτή τη δοκιμή στο AI, όπως τα μαθηματικά ή η απάντηση η ερώτηση. Πεδίο
Με άλλα λόγια, ανεξάρτητα από την υπολογιστική σας δύναμη, μπορείτε να απενεργοποιήσετε όλο και περισσότερο το τμήμα του νευρικού δικτύου και να έχετε τα ίδια ή τα καλύτερα αποτελέσματα.
Βελτιστοποίηση του AI με λιγότερες παραμέτρους
Όπως την εξέφρασε σε τεχνικούς όρους, “η αύξηση της αραιής, αναλογικά επεκτείνοντας τον συνολικό αριθμό παραμέτρων, οδηγεί σταθερά σε μείωση των προκαταρκτικών ζημιών παρασκευής, ακόμη και αν περιορίζεται από έναν σταθερό εκπαιδευτικό προϋπολογισμό”. Ο όρος “προκαταρκτική απώλεια” είναι ο όρος AI για το πόσο ακριβές είναι το νευρωνικό δίκτυο. Η χαμηλότερη απώλεια της μάθησης σημαίνει πιο ακριβή αποτελέσματα.
Αυτό το συμπέρασμα εξηγεί πώς το Deepseek μπορεί να έχει λιγότερη υπολογιστική ισχύ, αλλά να επιτύχει το ίδιο ή καλύτερο αποτέλεσμα, απλά απενεργοποιώντας όλο και περισσότερα τμήματα του δικτύου.
Επίσης: το καλύτερο AI για κωδικοποίηση το 2025 (και τι δεν πρέπει να χρησιμοποιήσετε)
Η Sparsity είναι ένα είδος μαγικού επιλογέα που βρίσκει την καλύτερη σύμπτωση του μοντέλου AI που έχετε και τον υπολογισμό που έχετε.
Αυτός είναι ο ίδιος οικονομικός κανόνας που ισχύει για κάθε νέα γενιά προσωπικών υπολογιστών: είτε το καλύτερο αποτέλεσμα για τα ίδια χρήματα, είτε το ίδιο αποτέλεσμα για λιγότερα χρήματα.
Υπάρχουν κάποιες άλλες λεπτομέρειες που πρέπει να εξεταστούν για το Deepseek. Για παράδειγμα, μια άλλη καινοτομία του Deepseek, όπως εξηγείται ο Ege Erdil από την εποχή AI, είναι ένα μαθηματικό τέχνασμα που ονομάζεται “πολυγωνική κρυμμένη προσοχή”. Δεν πέφτει πολύ βαθιά σε ζιζάνια, η κρυμμένη προσοχή της προσοχής πολλαπλών και των ωρών χρησιμοποιείται για να συμπιέσει έναν από τους μεγαλύτερους καταναλωτές μνήμης και διακίνησης, μια μνήμη μνήμης, η οποία περιέχει το τελευταίο κείμενο εισόδου του υπαινιγμού.
Το μέλλον της έρευνας είναι σπάνιο
Σε αντίθεση με τις λεπτομέρειες, η βαθύτερη στιγμή όλων αυτών είναι ότι ανθεκτικό ως φαινόμενο δεν είναι καινούργιο στην έρευνα του AI, και αυτό δεν είναι μια νέα προσέγγιση στη μηχανική.
Για πολλά χρόνια, οι ερευνητές της τεχνητής νοημοσύνης καταδεικνύουν ότι η εξάλειψη των τμημάτων του νευρικού δικτύου μπορεί να επιτύχει συγκρίσιμη ή ακόμα καλύτερη ακρίβεια με λιγότερη προσπάθεια.
Για πολλά χρόνια, ένας ανταγωνιστής της Nvidia Intel νίκησε ανθεκτικό ως βασικό δρόμο της έρευνας προκειμένου να αλλάξει την κατάσταση της τέχνης σε αυτόν τον τομέα. Οι προσεγγίσεις από τις νεοσύστατες επιχειρήσεις με βάση την άδεια κέρδισαν επίσης υψηλά σημάδια στους δείκτες της βιομηχανίας τα τελευταία χρόνια.
Ένας μαγικός σπανιτικός επιλογέας όχι μόνο ξυρίζει υπολογιστικό κόστος, όπως συμβαίνει με το Deepseek – λειτουργεί επίσης σε διαφορετική κατεύθυνση: μπορεί επίσης να κάνει πιο αποτελεσματικούς τους υπολογιστές AI πιο αποτελεσματικούς.
Μήλο
Ο μαγικός επιλογέας της σπανιότητας είναι βαθιά, επειδή όχι μόνο βελτιώνει την οικονομία για έναν μικρό προϋπολογισμό, όπως στην περίπτωση του Deepseek, λειτουργεί επίσης σε διαφορετική κατεύθυνση: να ξοδεύετε περισσότερα και θα έχετε ακόμη μεγαλύτερα πλεονεκτήματα με τη βοήθεια του σπάνιο. Μετατρέποντας την υπολογιστική του δύναμη, η ακρίβεια του μοντέλου AI βελτιώνεται, η Abnar και η ομάδα ανακαλύφθηκαν.
Όπως εκφράζονται: “Ως σπάνιες, οι απώλειες επικύρωσης αυξάνονται για όλους τους υπολογιστικούς προϋπολογισμούς, ενώ οι μεγαλύτεροι προϋπολογισμοί φθάνουν σε χαμηλότερες απώλειες σε κάθε επίπεδο Relitening”.
Θεωρητικά, μπορείτε να κάνετε μεγαλύτερα και μεγαλύτερα μοντέλα σε μεγάλους και μεγάλους υπολογιστές και να έχετε τα καλύτερα οφέλη.
Όλα όσα δουλεύουν στην επίλυση σημαίνει ότι το Deepseek είναι μόνο ένα από τα παραδείγματα ενός ευρέος πεδίου έρευνας, τα οποία ακολουθούνται ήδη από πολλά εργαστήρια και αυτό θα αλέσει ακόμη περισσότερο για να αναπαράγει την επιτυχία του Deepseek.