Meta: Χρήση δεδομένων χρηστών για δημιουργία AI

Για πολλούς το διαδίκτυο ταυτίζεται με το Facebook και αριθμοί των χρηστών του αυξάνονται, σύμφωνα με τα τελευταία αποτελέσματα της Meta. Αλλά ο Μαρκ Ζάκερμπεργκ θέλει να εκμεταλλευτεί αυτές τις αυξητικές τάσεις χρησιμοποιώντας δεδομένα από Facebook και Instagram για να δημιουργήσει τεχνητή νοημοσύνη γενικού σκοπού. Αυτό μπορεί να ακούγεται ευχάριστο για μερικούς και η Meta είναι σε θέση να το εκμεταλλευτεί, αλλά οι χρήστες των μέσων κοινωνικής δικτύωσης μπορεί να το πληρώσουν με τα προσωπικά δεδομένα τους, και όχι μόνο.

«To επόμενο βήμα κλειδί για εμάς θα είναι η μάθηση από τα μοναδικά δεδομένα και την ανάδραση των προϊόντων μας… Σε Facebook και Instagram υπάρχουν εκατοντάδες δισεκατομμύρια εικόνες και δεκάδες δισεκατομμύρια βίντεο που μοιράζονται δημόσια, που θεωρούμε ότι είναι περισσότερα από τη βάση δεδομένων Common Crawl, και οι χρήστες επίσης μοιράζονται δημόσια μεγάλους αριθμούς κειμένων μέσω των υπηρεσιών μας».

Το θέμα που αναφέρει ο Ζάκερμπεργκ σχετικά με το Common Crawl προκάλεσε την έκπληξη αναλυτών του τομέα τεχνολογίας, καθώς το συγκεκριμένο είναι ήδη τεράστιο με 250 δισεκατομμύρια ιστοσελίδες επί 17 χρόνια, γράφει το Bloomberg.

Είναι ένα από τα μεγαλύτερα και πιο δημοφιλή αρχεία που χρησιμοποιούνται για να διδάσκονται συστήματα ΑΙ σήμερα. Όταν η OpenAI λανσάρισε το μοντέλο γλώσσας GPT-3, το 2020, περίπου 60% των κειμένων που χρησιμοποιήθηκαν για να εκπαιδεύσουν το μοντέλο προήλθε από το Common Crawl.

Περισσότερα δεδομένα, καλύτερη ΑΙ

Αλλά ο όγκος δεδομένων της Meta είναι ακόμη μεγαλύτερο, πράγμα που σημαίνει ότι μπορεί, θεωρητικά, να δημιουργήσει «εξυπνότερη» τεχνητή νοημοσύνη, και αυτό γιατί η έρευνα κατέδειξε ότι η εκπαίδευση μοντέλων ΑΙ με περισσότερα δεδομένα τείνει να τα κάνει ακριβέστερα και ικανότερα.

Αν ο Ζάκερμπεργκ θέλει να δημιουργήσει ένα ισχυρότερο chatbot, ο όγκος πληροφοριών που έχει είναι ιδιαίτερα πολύτιμος επειδή προέρχεται από σειρές σχολίων. Κείμενα που περιέχουν ανθρώπινους διαλόγους είναι κρίσιμα για την εκπαίδευση των αποκαλούμενων μοντέλων συζήτησης.

Η τελευταία «δονκιχωτική» φιλοδοξία του Ζάκερμπεργκ, δηλαδή η δημιουργία μιας «γενικής νοημοσύνης», συστήματα που φτάνουν ή ξεπερνούν την ανθρώπινη νοημοσύνη, είναι ιδιαίτερα μεγαλεπήβολη. Αλλά με τον όγκο δεδομένων του Ζάκερμπεργκ φαίνεται δυνατή. Το πρόβλημα είναι τι σημαίνει αυτό για εμάς, διερωτάται ο συντάκτης του Bloomberg.

Είναι περίεργο ότι όταν ο Ζάκερμπεργκ ανέφερε πως η ομάδα του χτίζει «γενική νοημοσύνη» εδώ και μια δεκαετία, προσέθεσε ότι μόνο τώρα θα στραφεί σε χρήση δεδομένων χρηστών. Αλλά γιατί δεν το έκανε μέχρι τώρα; Ίσως, γιατί, η χρήση θα ήταν μια ακόμη παραβίαση των προσωπικών δεδομένων δισεκατομμυρίων χρηστών. Αυτό θα ήγειρε, όχι μόνο ηθικές ενστάσεις, αλλά θα απαιτούσε αυστηρότατες παραμέτρους χρήσης των δεδομένων και συμμόρφωση με παγκόσμιους νόμους προστασίας δεδομένων και την επιτήρηση ευρωπαϊκών ρυθμιστικών αρχών.

Μεροληψία, τοξικότητα και προσωπικά δεδεομένα

Ένας άλλος λόγος είναι η μεροληψία και η τοξικότητα. H OpenAI αναγκάστηκε να το αντιμετωπίσει με το Common Crawl του οποίου η τεράστια βάση δεδομένων περιείχε ιστοσελίδες πορνογραφικού περιεχομένου, ενώ 4%-6% των ιστοτόπων περιείχε ρατσιστικά σχόλια, σχόλια μίσους και θεωρίες συνομωσίας.

Αν και οι ελεγκτικές υπηρεσίες έχουν γίνει καλύτερες στην αντιμετώπιση τέτοιων φαινομένων, δεν είναι τέλειες. Επιπλέον μπορεί να αναφέρεται και στην χρήση περιεχομένου από την εποχή πριν ο Ζάκερμπεργκ αρχίσει να προσέχει το περιεχόμενο.

Αν δεν είναι αρκετά προσεκτικός ρισκάρει επανάληψη του εφιάλτη δημόσιας κριτικής για τη χρήση δεδομένων του Facebook.

Αν κάτι χαρακτηρίζει τον Ζάκερμπεργκ είναι η βοναπαρτική εμμονή του για επικράτηση και νίκη. Μόλις 24 ώρες αφότου αντιμετώπισε μια ορδή οργισμένων γονέων που τον κατηγορούσαν ότι οδήγησε τα παιδιά τους στην αυτοκαταστροφή ή την αυτοκτονία, ανακοίνωνε τα άριστα τριμηνιαία αποτελέσματα της Meta και την χρήση δεδομένων χρηστών για την εκπαίδευση ΑΙ.

Αυτό θα πρέπει να μας υπενθυμίζει ότι ο δρόμος του Facebook προς τα πλούτη είναι σπαρμένος με τραγωδίες, οπότε μήπως το ίδιο μπορεί να συνεπάγεται και ο δρόμος προς την τεχνητή νοημοσύνη…;