Ορισμένες από τις μεγαλύτερες τεχνολογικές εταιρείες του κόσμου εκπαίδευσαν τα ΑΙ μοντέλα τους σε ένα σύνολο δεδομένων που περιλάμβανε απομαγνητοφωνήσεις περισσότερων από 173.000 βίντεο YouTube χωρίς άδεια, σύμφωνα με μια νέα έρευνα από το Proof News.
Το σύνολο δεδομένων, που δημιουργήθηκε από μια μη κερδοσκοπική εταιρεία ονόματι EleutherAI, περιέχει απομαγνητοφωνήσεις βίντεο από περισσότερα από 48.000 κανάλια και χρησιμοποιήθηκε από εταιρείες όπως οι Apple, NVIDIA και Anthropic μεταξύ άλλων. Τα ευρήματα επισημαίνουν ότι η τεχνολογία βασίζεται σε μεγάλο βαθμό σε δεδομένα που έχουν αποσπαστεί από δημιουργούς χωρίς τη συγκατάθεσή τους ή την αποζημίωσή τους.
Το σύνολο δεδομένων δεν περιλαμβάνει βίντεο ή εικόνες από το YouTube, αλλά περιέχει απομαγνητοφωνήσεις βίντεο από τους μεγαλύτερους δημιουργούς της πλατφόρμας, όπως οι Marques Brownlee και MrBeast, καθώς και μεγάλα μέσα όπως οι The New York Times, το BBC και το ABC News.
“Η Apple έχει προμηθευτεί δεδομένα για την AI τους από αρκετές εταιρείες,” δημοσίευσε ο Brownlee στο X. “Μία από αυτές απέσπασε τεράστια ποσότητα δεδομένων/απομαγνητοφωνήσεων από βίντεο YouTube, συμπεριλαμβανομένων και των δικών μου,” πρόσθεσε. “Αυτό θα είναι ένα εξελισσόμενο πρόβλημα για πολύ καιρό.” Ένας εκπρόσωπος της Google ανέφερε ότι οι προηγούμενες δηλώσεις του CEO του YouTube, Neal Mohan, σύμφωνα με τις οποίες οι εταιρείες που χρησιμοποιούν δεδομένα του YouTube για να εκπαιδεύσουν μοντέλα AI θα παραβίαζαν τους όρους χρήσης της πλατφόρμας, εξακολουθούν να ισχύουν.
Μέχρι στιγμής, οι εταιρείες AI δεν έχουν υπάρξει διαφανείς σχετικά με τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση των μοντέλων τους. Νωρίτερα αυτόν τον μήνα, καλλιτέχνες και φωτογράφοι επέκριναν την Apple επειδή δεν αποκάλυψε την πηγή των δεδομένων εκπαίδευσης για την Apple Intelligence, τη δική της εκδοχή της γενετικής AI που θα κυκλοφορήσει σε εκατομμύρια συσκευές Apple φέτος.
Το YouTube, το μεγαλύτερο αποθετήριο βίντεο στον κόσμο, αποτελεί “χρυσωρυχείο” όχι μόνο για απομαγνητοφωνήσεις, αλλά και για ήχο, βίντεο και εικόνες, καθιστώντας το ένα ελκυστικό σύνολο δεδομένων για την εκπαίδευση μοντέλων AI.
Νωρίτερα φέτος, η CTO της OpenAI, Mira Murati, απέφυγε να απαντήσει σε ερωτήσεις της Wall Street Journal σχετικά με το εάν η εταιρεία χρησιμοποίησε βίντεο YouTube για να εκπαιδεύσει το Sora, το επερχόμενο εργαλείο δημιουργίας βίντεο AI της OpenAI. “Δεν θα μπω σε λεπτομέρειες σχετικά με τα δεδομένα που χρησιμοποιήθηκαν, αλλά ήταν δημόσια διαθέσιμα ή αδειοδοτημένα δεδομένα,” δήλωσε τότε η Murati. Ο CEO της Alphabet, Sundar Pichai, έχει επίσης δηλώσει ότι οι εταιρείες που χρησιμοποιούν δεδομένα από το YouTube για να εκπαιδεύσουν τα μοντέλα AI τους θα παραβίαζαν τους όρους χρήσης της πλατφόρμας.