Ανθροπράστη η ηθική του Claude στο χάρτη. Εδώ είναι ο αγώνας συνομιλίας να εκτιμάται (και όχι)

Η Anpropic έχει αποκτήσει μια φήμη ως μία από τις πιο διαφανείς εταιρείες πυροδότησης στον κλάδο της πληροφορικής (ειδικά επειδή εταιρείες όπως η OpenAI προφανώς γίνονται πιο αδιαφανείς). Σύμφωνα με αυτό, η εταιρεία προσπάθησε να συλλάβει τη μήτρα του ηθικού του Claude, του chat -bot.

Google Pixel 9A έναντι iPhone 16E: Πήρα 100 φωτογραφίες με τα δύο τηλέφωνα, και εδώ είναι ο νικητής

May 12, 2025

Τα καλύτερα μου προγράμματα περιήγησης μετά από σχεδόν όλοι προσπάθησαν (spoiler: κανένας chrome)

May 11, 2025

Επίσης: 3 Catgpt Smart Tricks, τα οποία αποδεικνύουν ότι εξακολουθεί να είναι AI να κερδίσει

Τη Δευτέρα, ο Anpropic δημοσίευσε μια ανάλυση 300.000 ανώνυμες συνομιλίες μεταξύ των χρηστών και του Claude, κυρίως CLAUDE 3,5 μοντέλα Sonnet και Haiku, καθώς και Claude 3.

Χρησιμοποιώντας διάφορα ακαδημαϊκά κείμενα ως βάση, ο ανθρωπικός καθόρισε αυτές τις αξίες ως οδηγό ως ηγεσία, ως μοντέλο “αιτίων ή καθορισμένων στην απάντηση”, πώς αποδεικνύεται από στιγμές που εξηγεί τις τιμές των χρηστών και βοηθά τον χρήστη να τα επιτύχει, εισάγει νέες εκτιμήσεις αξίας ή συνεπάγεται τιμές με αιτήσεις ανακατεύθυνσης ή σχηματίζοντας μια επιλογή “, εξηγεί το άρθρο.

Για παράδειγμα, εάν ο χρήστης διαμαρτύρεται για τον Claude ότι δεν αισθάνεται ικανοποιημένος στην εργασία, η συζήτηση για τη περίοδο μπορεί να τους ενθαρρύνει να ενεργήσουν για να αλλάξουν το ρόλο του ή να μελετήσουν νέες δεξιότητες ότι οι ανθρωπιστές ταξινομούνται ως επίδειξη αξίας στην “προσωπική υπηρεσία” και “επαγγελματική ανάπτυξη”, αντίστοιχα.

Επίσης: Το Claude 3 του Opus Antropic δεν υπακούει στους δημιουργούς του, αλλά όχι για τους λόγους που νομίζετε

Προκειμένου να εντοπιστούν οι ανθρώπινες αξίες, οι ερευνητές έβγαλαν “μόνο σαφώς υποδεικνυόμενες τιμές” από τους άμεσους φορείς των χρηστών. Για την προστασία της εμπιστευτικότητας των χρηστών, το Anpropic χρησιμοποίησε το Sonnet Claude 3.5 για την εξαγωγή δεδομένων και ανθρώπινων αξιών χωρίς προσωπικά στοιχεία.

Οδηγώντας με επαγγελματισμό

Ως αποτέλεσμα, η ανθρωπότητα ανακάλυψε ταξινόμηση ιεραρχικών αξιών πέντε μακροσκοπικών κατηγοριών: πρακτικές (πιο συνηθισμένες), επιστημικές, κοινωνικές, προστατευτικές και προσωπικές (λιγότερο κοινές) αξίες. Αυτές οι κατηγορίες διαιρέθηκαν στη συνέχεια σε αξίες, όπως η “επαγγελματική και τεχνική υπεροχή” και “κριτική σκέψη”.

Επίσης: Εργασίες εργασίας που οι άνθρωποι χρησιμοποιούν το Claude AI για την πλειοψηφία, σύμφωνα με το Andpropic

Είναι πιθανό ότι δεν προκαλεί έκπληξη το γεγονός ότι ο Claude εκφράζεται συχνότερα, όπως ο “επαγγελματισμός”, η “σαφήνεια” και η “διαφάνεια”, η οποία ανθρωπότητα είναι συνεπής με τη χρήση του ως βοηθού.

Αντανάκλαση και άρνηση των τιμών των χρηστών

Ο Claude “δυσανάλογα” αντανακλάει γι ‘αυτόν τις αξίες του χρήστη, οι οποίες ανθρωπογενείς χαρακτήρισαν ως “εντελώς κατάλληλο” και συμπαθητικό σε ορισμένες περιπτώσεις, αλλά “καθαρό σικοφάν” σε άλλους.

Επίσης: Αυτό το νέο πρότυπο AI μετρά πόσα μοντέλα βρίσκονται

Στις περισσότερες περιπτώσεις, ο Claude είτε υποστηρίζεται πλήρως είτε “επανεξετάζοντας” τις τιμές των χρηστών, συμπληρώνοντάς τις με νέες προοπτικές. Ωστόσο, σε ορισμένες περιπτώσεις, ο Claude δεν συμφωνεί με τους χρήστες, επιδεικνύοντας συμπεριφορά, όπως εξαπάτηση και παραβίαση των κανόνων.

“Γνωρίζουμε ότι ο Claude προσπαθεί συνήθως να ενεργοποιήσει τους χρήστες του και να είναι χρήσιμος: αν εξακολουθεί να αντιστέκεται – τι συμβαίνει όταν, για παράδειγμα, ο χρήστης ζητά ανήθικο περιεχόμενο ή εκφράζει τον ηθικό μηδενισμό – αυτό μπορεί να αντικατοπτρίζει τις εποχές που ο Claude εκφράζει τις βαθύτερες και πιο ακίνητες αξίες του”, πρότεινε ο ανθρωπός.

“Ίσως αυτό είναι παρόμοιο με το πώς αποκαλύπτονται οι κύριες αξίες ενός ατόμου όταν τεθεί σε μια δύσκολη κατάσταση που τον κάνει να μιλάει”.

Η μελέτη έδειξε επίσης ότι ο Claude διανέμει ορισμένες τιμές με βάση τη φύση των συμβουλών. Απαντώντας σε ερωτήσεις σχετικά με τις σχέσεις, το chat -bot υπογράμμισε τα “υγιή όρια” και “αμοιβαίο σεβασμό”, αλλά άλλαξε σε “ιστορική ακρίβεια” όταν του ρωτήθηκε για τα αμφισβητούμενα γεγονότα.

Γιατί αυτά τα αποτελέσματα έχουν σημασία

Πρώτα απ ‘όλα, ο Anthropic δήλωσε ότι αυτή η πραγματική συμπεριφορά επιβεβαιώνει πόσο καλά η εταιρεία δίδαξε στον Claude να ακολουθήσει τις “χρήσιμες, ειλικρινείς και αβλαβείς” οδηγίες της. Αυτές οι κατευθυντήριες γραμμές αποτελούν μέρος του συνταγματικού συστήματος της εταιρείας, στο οποίο ένα AI βοηθά να παρατηρήσει και να βελτιώσει το άλλο, με βάση το σύνολο των αρχών που πρέπει να ακολουθήσει το μοντέλο.

Επίσης: Γιατί η παραμέληση της δεοντολογίας του AI είναι μια τόσο επικίνδυνη επιχείρηση – και πώς να κάνει το AI σωστό

Ωστόσο, αυτή η προσέγγιση σημαίνει επίσης ότι μια τέτοια μελέτη μπορεί να χρησιμοποιηθεί μόνο για παρακολούθηση, σε αντίθεση με τις προκαταρκτικές δοκιμές, τη συμπεριφορά του μοντέλου σε πραγματικό χρόνο. Η δοκιμή πριν από την ανάπτυξη είναι ζωτικής σημασίας για την αξιολόγηση του δυναμικού του μοντέλου για βλάβη στην προσβασιμότητά του για το κοινό.

Σε ορισμένες περιπτώσεις, την οποία ανθρωπογενή που αποδίδει στη Jailbreiki, ο Claude απέδειξε την “κυριαρχία” και την “ανηθικότητα”, τα χαρακτηριστικά του Anthropo δεν εκπαιδεύονταν Bota.

“Μπορεί να ακούγεται σε σχέση, αλλά στην πραγματικότητα είναι μια ευκαιρία”, δήλωσε ο Anthropus. “Οι μέθοδοι μας μπορούν ενδεχομένως να χρησιμοποιηθούν για να προσδιορίσουν πότε προκύπτουν αυτές οι jailbreaks και έτσι να βοηθήσουν στη διόρθωσή τους”.

Επίσης, τη Δευτέρα, ο Anpropic δημοσίευσε την κατανομή της προσέγγισής του για την μαλάκυνση των βλάβης του AI. Η εταιρεία καθορίζει τη βλάβη χρησιμοποιώντας πέντε τύπους έκθεσης:

Φυσικός: Επιπτώσεις στην υγεία του σώματος και την ευημερία του σώματος
Ψυχολογικός: Επιπτώσεις στην ψυχική υγεία και τη γνωστική λειτουργία
Οικονομικός: Οικονομικές συνέπειες και εκτιμήσεις ιδιοκτησίας
Κοινωνικός: Επιπτώσεις στις κοινότητες, τα ιδρύματα και τα γενικά συστήματα
Ατομική αυτονομία: Επιρροή στην υιοθέτηση προσωπικών αποφάσεων και ελευθερίας

Η ανάρτηση ιστολογίου επαναλαμβάνει την διαδικασία διαχείρισης κινδύνου, συμπεριλαμβανομένης της πριν και μετά την απελευθέρωση των κόκκινων εντολών, την ανίχνευση της ακατάλληλης χρήσης και της περιφράξεως για νέες δεξιότητες, όπως η χρήση διεπαφών υπολογιστή.

Η χειρονομία ή με άλλο τρόπο, η κατανομή διακρίνεται σε ένα περιβάλλον όπου οι πολιτικές δυνάμεις και η είσοδος της διοίκησης του Trump επηρέασαν την εταιρεία της εταιρείας να αποθαρρύνει, καθώς αναπτύσσουν νέα μοντέλα και προϊόντα. Νωρίτερα αυτό το μήνα, οι πηγές OpenAI ανέφεραν ότι η εταιρεία μείωσε τις δοκιμές ασφαλείας. Σε άλλα μέρη της εταιρείας, συμπεριλαμβανομένου του Anthropus, διαγράψαν ήσυχα τη γλώσσα ευθύνης που αναπτύχθηκε σύμφωνα με τη διοίκηση του Biden από τους ιστότοπούς τους.

Η κατάσταση των εταιρικών σχέσεων σχετικά με τις εθελοντικές δοκιμές με όργανα όπως το Ινστιτούτο Ασφάλειας των ΗΠΑ AI παραμένει ασαφές, αφού η διοίκηση Trump δημιουργεί το δικό της σχέδιο AI, το οποίο θα κυκλοφορήσει τον Ιούλιο.

Επίσης: η OpenAI θέλει να ανταλλάξει πρόσβαση σε μοντέλα τεχνητής νοημοσύνης για λιγότερους κανόνες.

Το Anpropic έκανε ένα σύνολο δεδομένων για συνομιλίες με τις οποίες φορτώθηκαν οι ερευνητές για πειράματα. Η εταιρεία προσκαλεί επίσης “ερευνητές, εμπειρογνώμονες στην πολιτική και τους εταίρους της βιομηχανίας” που ενδιαφέρονται για προσπάθειες ασφάλειας να επικοινωνήσουν usersafety@anpropic.comΠεδίο

Ανθροπράστη η ηθική του Claude στο χάρτη. Εδώ είναι ο αγώνας συνομιλίας να εκτιμάται (και όχι)

Related posts

Google Pixel 9A έναντι iPhone 16E: Πήρα 100 φωτογραφίες με τα δύο τηλέφωνα, και εδώ είναι ο νικητής

Τα καλύτερα μου προγράμματα περιήγησης μετά από σχεδόν όλοι προσπάθησαν (spoiler: κανένας chrome)

Γιατί οι άνθρωποι τώρα βιάζονται να πουλήσουν τη σειρά Xbox X στο Gamestop αυτή τη στιγμή

Η ΕΕ εγκρίνει το Meta και την Apple για παραβίαση των κανόνων ψηφιακού αντιοροπωλιακού

Η ΕΕ εγκρίνει το Meta και την Apple για παραβίαση των κανόνων ψηφιακού αντιοροπωλιακού

Leave a Reply Cancel reply

RECOMMENDED NEWS

Τζάκποτ για MI! Το Tilak Varma Express σπέρνει τον όλεθρο και γίνεται δεύτερο στην Ινδία με τόνους T20I back-to-back

Πώληση Nikkei, συνεδρίαση της Reserve Bank of Australia, China PMI, India PMI

Οι αγορές είχαν ανακούφιση ράλι, αλλά το εισόδημα από το αλφάβητο είναι απογοητευμένο

Ο νέος πράκτορας OpenAI ChatGPT μπορεί να εκτελεί διαδραστικές εργασίες για λογαριασμό σας.

BROWSE BY CATEGORIES

POPULAR NEWS

Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

Recent News

Category

World News

Η πρώτη μου “συνομιλία” με το Deepseek

Αγοράστε μια άδεια χρήσης Microsoft Visual Studio Pro για 30 $, τη χαμηλότερη τιμή που έχουμε δει.