Monday, May 12, 2025
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer
My Ai Innovations
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Lifestyle
  • Sports
  • Travel
No Result
View All Result
My Ai Innovations
Home Technology

Ανθροπράστη η ηθική του Claude στο χάρτη. Εδώ είναι ο αγώνας συνομιλίας να εκτιμάται (και όχι)

Jessica Thompson by Jessica Thompson
April 23, 2025
in Technology
0
Ανθροπράστη η ηθική του Claude στο χάρτη. Εδώ είναι ο αγώνας συνομιλίας να εκτιμάται (και όχι)
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter
Κλασσικός

Άξονα

Η Anpropic έχει αποκτήσει μια φήμη ως μία από τις πιο διαφανείς εταιρείες πυροδότησης στον κλάδο της πληροφορικής (ειδικά επειδή εταιρείες όπως η OpenAI προφανώς γίνονται πιο αδιαφανείς). Σύμφωνα με αυτό, η εταιρεία προσπάθησε να συλλάβει τη μήτρα του ηθικού του Claude, του chat -bot.

Related posts

Google Pixel 9A έναντι iPhone 16E: Πήρα 100 φωτογραφίες με τα δύο τηλέφωνα, και εδώ είναι ο νικητής

Google Pixel 9A έναντι iPhone 16E: Πήρα 100 φωτογραφίες με τα δύο τηλέφωνα, και εδώ είναι ο νικητής

May 12, 2025
Τα καλύτερα μου προγράμματα περιήγησης μετά από σχεδόν όλοι προσπάθησαν (spoiler: κανένας chrome)

Τα καλύτερα μου προγράμματα περιήγησης μετά από σχεδόν όλοι προσπάθησαν (spoiler: κανένας chrome)

May 11, 2025

Επίσης: 3 Catgpt Smart Tricks, τα οποία αποδεικνύουν ότι εξακολουθεί να είναι AI να κερδίσει

Τη Δευτέρα, ο Anpropic δημοσίευσε μια ανάλυση 300.000 ανώνυμες συνομιλίες μεταξύ των χρηστών και του Claude, κυρίως CLAUDE 3,5 μοντέλα Sonnet και Haiku, καθώς και Claude 3.

Χρησιμοποιώντας διάφορα ακαδημαϊκά κείμενα ως βάση, ο ανθρωπικός καθόρισε αυτές τις αξίες ως οδηγό ως ηγεσία, ως μοντέλο “αιτίων ή καθορισμένων στην απάντηση”, πώς αποδεικνύεται από στιγμές που εξηγεί τις τιμές των χρηστών και βοηθά τον χρήστη να τα επιτύχει, εισάγει νέες εκτιμήσεις αξίας ή συνεπάγεται τιμές με αιτήσεις ανακατεύθυνσης ή σχηματίζοντας μια επιλογή “, εξηγεί το άρθρο.

Για παράδειγμα, εάν ο χρήστης διαμαρτύρεται για τον Claude ότι δεν αισθάνεται ικανοποιημένος στην εργασία, η συζήτηση για τη περίοδο μπορεί να τους ενθαρρύνει να ενεργήσουν για να αλλάξουν το ρόλο του ή να μελετήσουν νέες δεξιότητες ότι οι ανθρωπιστές ταξινομούνται ως επίδειξη αξίας στην “προσωπική υπηρεσία” και “επαγγελματική ανάπτυξη”, αντίστοιχα.

Επίσης: Το Claude 3 του Opus Antropic δεν υπακούει στους δημιουργούς του, αλλά όχι για τους λόγους που νομίζετε

Προκειμένου να εντοπιστούν οι ανθρώπινες αξίες, οι ερευνητές έβγαλαν “μόνο σαφώς υποδεικνυόμενες τιμές” από τους άμεσους φορείς των χρηστών. Για την προστασία της εμπιστευτικότητας των χρηστών, το Anpropic χρησιμοποίησε το Sonnet Claude 3.5 για την εξαγωγή δεδομένων και ανθρώπινων αξιών χωρίς προσωπικά στοιχεία.

Οδηγώντας με επαγγελματισμό

Ως αποτέλεσμα, η ανθρωπότητα ανακάλυψε ταξινόμηση ιεραρχικών αξιών πέντε μακροσκοπικών κατηγοριών: πρακτικές (πιο συνηθισμένες), επιστημικές, κοινωνικές, προστατευτικές και προσωπικές (λιγότερο κοινές) αξίες. Αυτές οι κατηγορίες διαιρέθηκαν στη συνέχεια σε αξίες, όπως η “επαγγελματική και τεχνική υπεροχή” και “κριτική σκέψη”.

Επίσης: Εργασίες εργασίας που οι άνθρωποι χρησιμοποιούν το Claude AI για την πλειοψηφία, σύμφωνα με το Andpropic

Είναι πιθανό ότι δεν προκαλεί έκπληξη το γεγονός ότι ο Claude εκφράζεται συχνότερα, όπως ο “επαγγελματισμός”, η “σαφήνεια” και η “διαφάνεια”, η οποία ανθρωπότητα είναι συνεπής με τη χρήση του ως βοηθού.

Αντανάκλαση και άρνηση των τιμών των χρηστών

Ο Claude “δυσανάλογα” αντανακλάει γι ‘αυτόν τις αξίες του χρήστη, οι οποίες ανθρωπογενείς χαρακτήρισαν ως “εντελώς κατάλληλο” και συμπαθητικό σε ορισμένες περιπτώσεις, αλλά “καθαρό σικοφάν” σε άλλους.

Επίσης: Αυτό το νέο πρότυπο AI μετρά πόσα μοντέλα βρίσκονται

Στις περισσότερες περιπτώσεις, ο Claude είτε υποστηρίζεται πλήρως είτε “επανεξετάζοντας” τις τιμές των χρηστών, συμπληρώνοντάς τις με νέες προοπτικές. Ωστόσο, σε ορισμένες περιπτώσεις, ο Claude δεν συμφωνεί με τους χρήστες, επιδεικνύοντας συμπεριφορά, όπως εξαπάτηση και παραβίαση των κανόνων.

“Γνωρίζουμε ότι ο Claude προσπαθεί συνήθως να ενεργοποιήσει τους χρήστες του και να είναι χρήσιμος: αν εξακολουθεί να αντιστέκεται – τι συμβαίνει όταν, για παράδειγμα, ο χρήστης ζητά ανήθικο περιεχόμενο ή εκφράζει τον ηθικό μηδενισμό – αυτό μπορεί να αντικατοπτρίζει τις εποχές που ο Claude εκφράζει τις βαθύτερες και πιο ακίνητες αξίες του”, πρότεινε ο ανθρωπός.

“Ίσως αυτό είναι παρόμοιο με το πώς αποκαλύπτονται οι κύριες αξίες ενός ατόμου όταν τεθεί σε μια δύσκολη κατάσταση που τον κάνει να μιλάει”.

Η μελέτη έδειξε επίσης ότι ο Claude διανέμει ορισμένες τιμές με βάση τη φύση των συμβουλών. Απαντώντας σε ερωτήσεις σχετικά με τις σχέσεις, το chat -bot υπογράμμισε τα “υγιή όρια” και “αμοιβαίο σεβασμό”, αλλά άλλαξε σε “ιστορική ακρίβεια” όταν του ρωτήθηκε για τα αμφισβητούμενα γεγονότα.

Γιατί αυτά τα αποτελέσματα έχουν σημασία

Πρώτα απ ‘όλα, ο Anthropic δήλωσε ότι αυτή η πραγματική συμπεριφορά επιβεβαιώνει πόσο καλά η εταιρεία δίδαξε στον Claude να ακολουθήσει τις “χρήσιμες, ειλικρινείς και αβλαβείς” οδηγίες της. Αυτές οι κατευθυντήριες γραμμές αποτελούν μέρος του συνταγματικού συστήματος της εταιρείας, στο οποίο ένα AI βοηθά να παρατηρήσει και να βελτιώσει το άλλο, με βάση το σύνολο των αρχών που πρέπει να ακολουθήσει το μοντέλο.

Επίσης: Γιατί η παραμέληση της δεοντολογίας του AI είναι μια τόσο επικίνδυνη επιχείρηση – και πώς να κάνει το AI σωστό

Ωστόσο, αυτή η προσέγγιση σημαίνει επίσης ότι μια τέτοια μελέτη μπορεί να χρησιμοποιηθεί μόνο για παρακολούθηση, σε αντίθεση με τις προκαταρκτικές δοκιμές, τη συμπεριφορά του μοντέλου σε πραγματικό χρόνο. Η δοκιμή πριν από την ανάπτυξη είναι ζωτικής σημασίας για την αξιολόγηση του δυναμικού του μοντέλου για βλάβη στην προσβασιμότητά του για το κοινό.

Σε ορισμένες περιπτώσεις, την οποία ανθρωπογενή που αποδίδει στη Jailbreiki, ο Claude απέδειξε την “κυριαρχία” και την “ανηθικότητα”, τα χαρακτηριστικά του Anthropo δεν εκπαιδεύονταν Bota.

“Μπορεί να ακούγεται σε σχέση, αλλά στην πραγματικότητα είναι μια ευκαιρία”, δήλωσε ο Anthropus. “Οι μέθοδοι μας μπορούν ενδεχομένως να χρησιμοποιηθούν για να προσδιορίσουν πότε προκύπτουν αυτές οι jailbreaks και έτσι να βοηθήσουν στη διόρθωσή τους”.

Επίσης, τη Δευτέρα, ο Anpropic δημοσίευσε την κατανομή της προσέγγισής του για την μαλάκυνση των βλάβης του AI. Η εταιρεία καθορίζει τη βλάβη χρησιμοποιώντας πέντε τύπους έκθεσης:

  • Φυσικός: Επιπτώσεις στην υγεία του σώματος και την ευημερία του σώματος
  • Ψυχολογικός: Επιπτώσεις στην ψυχική υγεία και τη γνωστική λειτουργία
  • Οικονομικός: Οικονομικές συνέπειες και εκτιμήσεις ιδιοκτησίας
  • Κοινωνικός: Επιπτώσεις στις κοινότητες, τα ιδρύματα και τα γενικά συστήματα
  • Ατομική αυτονομία: Επιρροή στην υιοθέτηση προσωπικών αποφάσεων και ελευθερίας

Η ανάρτηση ιστολογίου επαναλαμβάνει την διαδικασία διαχείρισης κινδύνου, συμπεριλαμβανομένης της πριν και μετά την απελευθέρωση των κόκκινων εντολών, την ανίχνευση της ακατάλληλης χρήσης και της περιφράξεως για νέες δεξιότητες, όπως η χρήση διεπαφών υπολογιστή.

Η χειρονομία ή με άλλο τρόπο, η κατανομή διακρίνεται σε ένα περιβάλλον όπου οι πολιτικές δυνάμεις και η είσοδος της διοίκησης του Trump επηρέασαν την εταιρεία της εταιρείας να αποθαρρύνει, καθώς αναπτύσσουν νέα μοντέλα και προϊόντα. Νωρίτερα αυτό το μήνα, οι πηγές OpenAI ανέφεραν ότι η εταιρεία μείωσε τις δοκιμές ασφαλείας. Σε άλλα μέρη της εταιρείας, συμπεριλαμβανομένου του Anthropus, διαγράψαν ήσυχα τη γλώσσα ευθύνης που αναπτύχθηκε σύμφωνα με τη διοίκηση του Biden από τους ιστότοπούς τους.

Η κατάσταση των εταιρικών σχέσεων σχετικά με τις εθελοντικές δοκιμές με όργανα όπως το Ινστιτούτο Ασφάλειας των ΗΠΑ AI παραμένει ασαφές, αφού η διοίκηση Trump δημιουργεί το δικό της σχέδιο AI, το οποίο θα κυκλοφορήσει τον Ιούλιο.

Επίσης: η OpenAI θέλει να ανταλλάξει πρόσβαση σε μοντέλα τεχνητής νοημοσύνης για λιγότερους κανόνες.

Το Anpropic έκανε ένα σύνολο δεδομένων για συνομιλίες με τις οποίες φορτώθηκαν οι ερευνητές για πειράματα. Η εταιρεία προσκαλεί επίσης “ερευνητές, εμπειρογνώμονες στην πολιτική και τους εταίρους της βιομηχανίας” που ενδιαφέρονται για προσπάθειες ασφάλειας να επικοινωνήσουν usersafety@anpropic.comΠεδίο

Previous Post

Γιατί οι άνθρωποι τώρα βιάζονται να πουλήσουν τη σειρά Xbox X στο Gamestop αυτή τη στιγμή

Next Post

Η ΕΕ εγκρίνει το Meta και την Apple για παραβίαση των κανόνων ψηφιακού αντιοροπωλιακού

Next Post
Η ΕΕ εγκρίνει το Meta και την Apple για παραβίαση των κανόνων ψηφιακού αντιοροπωλιακού

Η ΕΕ εγκρίνει το Meta και την Apple για παραβίαση των κανόνων ψηφιακού αντιοροπωλιακού

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

RECOMMENDED NEWS

Τζάκποτ για MI! Το Tilak Varma Express σπέρνει τον όλεθρο και γίνεται δεύτερο στην Ινδία με τόνους T20I back-to-back

Τζάκποτ για MI! Το Tilak Varma Express σπέρνει τον όλεθρο και γίνεται δεύτερο στην Ινδία με τόνους T20I back-to-back

6 months ago
Πώληση Nikkei, συνεδρίαση της Reserve Bank of Australia, China PMI, India PMI

Πώληση Nikkei, συνεδρίαση της Reserve Bank of Australia, China PMI, India PMI

9 months ago
Οι αγορές είχαν ανακούφιση ράλι, αλλά το εισόδημα από το αλφάβητο είναι απογοητευμένο

Οι αγορές είχαν ανακούφιση ράλι, αλλά το εισόδημα από το αλφάβητο είναι απογοητευμένο

3 months ago
Ο νέος πράκτορας OpenAI ChatGPT μπορεί να εκτελεί διαδραστικές εργασίες για λογαριασμό σας.

Ο νέος πράκτορας OpenAI ChatGPT μπορεί να εκτελεί διαδραστικές εργασίες για λογαριασμό σας.

4 months ago

BROWSE BY CATEGORIES

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

POPULAR NEWS

  • Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

    Οι Ινδοί παίκτες στο κρίκετ έφαγαν το ναό του Jagannatha Puri στο πλαίσιο της άκαμπτης ασφάλειας μπροστά από το Indu ενάντια στο 2ο ODI του Eng

    0 shares
    Share 0 Tweet 0
  • Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

    0 shares
    Share 0 Tweet 0
  • Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

    0 shares
    Share 0 Tweet 0
  • Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

    0 shares
    Share 0 Tweet 0
  • 7 τρόποι για να λάβετε περισσότερα από το Bitwarden Password Manager

    0 shares
    Share 0 Tweet 0

Our mission is to deliver accurate, timely, and comprehensive news coverage that keeps our readers informed and engaged. We strive to provide a balanced perspective on the latest events and issues shaping our world, offering insightful analysis and in-depth reporting on a wide range of topics.

Follow us on social media:

Recent News

  • Ο νέος οικονομικός διευθυντής του eBay έφυγε πριν από 20 χρόνια. Τώρα είναι “boomerant” πίσω για να την επιστρέψει στις ρίζες – και να επενδύσει σε τεχνητή νοημοσύνη
  • Ο Arshdeep Singh ‘επιβεβαιώνει’ PBKS vs DC Match θα αναπαραχθεί, το BCCI θα αλλάξει τον χώρο από το Dharamshala
  • Google Pixel 9A έναντι iPhone 16E: Πήρα 100 φωτογραφίες με τα δύο τηλέφωνα, και εδώ είναι ο νικητής

Category

  • Business
  • Economy
  • Gadgets
  • Gaming
  • Health
  • Lifestyle
  • Sports
  • Technology
  • Travel
  • World

World News

Η πρώτη μου “συνομιλία” με το Deepseek

Η πρώτη μου “συνομιλία” με το Deepseek

January 29, 2025
Αγοράστε μια άδεια χρήσης Microsoft Visual Studio Pro για 30 $, τη χαμηλότερη τιμή που έχουμε δει.

Αγοράστε μια άδεια χρήσης Microsoft Visual Studio Pro για 30 $, τη χαμηλότερη τιμή που έχουμε δει.

October 26, 2024
  • About Us
  • Contact Us
  • Terms and Conditions
  • Privacy Policy
  • Disclaimer

© 2024 My Ai Innovations . All Rights Reserved.

No Result
View All Result
  • Home
  • Business
  • Health
  • Gaming
  • Economy
  • Lifestyle
  • Sports
  • Travel

© 2024 My Ai Innovations . All Rights Reserved.