Apple, Anthropic i Nvidia przyłapane na używaniu napisów YouTube do szkolenia AI

Nowe dochodzenie przeprowadzone przez Proof News i Wired ujawniło, że największe firmy technologiczne, w tym Apple, Anthropic, Nvidia i Salesforce, wykorzystują ogromny zbiór danych napisów YouTube do szkolenia swoich systemów sztucznej inteligencji.

Zbiór danych, znany jako „Napisy YouTube”, zawiera transkrypcje ponad 170 000 filmów na 48 000 kanałów, w tym treści od popularnych twórców, takich jak MrBeast i Marques Brownlee (MKBHD), a także z głównych serwisów informacyjnych, takich jak ABC News, BBC i The New York Times. Zbiór danych nie obejmuje rzeczywistej treści wideo, ale skupia się wyłącznie na napisach wyodrębnionych z tych filmów.

To odkrycie wywołało poważne kontrowersje, ponieważ według doniesień dane zostały zebrane bez pozwolenia, co stanowi naruszenie warunków korzystania z YouTube. Marques Brownlee, znany recenzent technologii, nagłośnił ten problem w mediach społecznościowych, wyrażając obawy związane z nieuprawnionym wykorzystaniem treści jego i innych twórców do szkoleń w zakresie sztucznej inteligencji. Podkreślił, że choć firmy takie jak Apple mogą nie być bezpośrednio winne kradzieży danych, to jednak są beneficjentami tej wątpliwej praktyki.

Apple pozyskał dane do swojej sztucznej inteligencji od kilku firm

Jeden z nich pobrał mnóstwo danych/transkrypcji z filmów na YouTube, w tym moich

Sugerowana lektura:Jak dodać napisy do filmu na YouTube

Apple technicznie unika tutaj „błędów”, ponieważ to nie oni drapią

Ale to będzie narastający problem przez długi czashttps://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD)16 lipca 2024 r

Zbiór danych, o którym mowa, jest częścią większej kolekcji o nazwie The Pile, stworzonej przez organizację non-profit EleutherAI. The Pile to zbiór danych o otwartym kodzie źródłowym, który zawiera różne materiały, takie jak książki, artykuły w Wikipedii, a teraz także napisy na YouTube. Ta kompilacja została wykorzystana przez kilku gigantów technologicznych do ulepszenia swoich modeli sztucznej inteligencji. Na przykład firma Apple wykorzystała The Pile do szkolenia swojego modelu OpenELM, co ogłoszono tuż przed wprowadzeniem Apple Intelligence – pakietu funkcji opartych na sztucznej inteligencji, który ma zostać wprowadzony na rynek w systemie iOS 18.

Korzystanie z tego zbioru danych wzbudziło wątpliwości etyczne i prawne. Zarówno dyrektor generalny YouTube, Neal Mohan, jak i dyrektor generalny Alphabet, Sundar Pichai, stwierdzili, że wykorzystywanie treści YouTube do szkoleń w zakresie sztucznej inteligencji bez pozwolenia narusza warunki korzystania z platformy. Pomimo tych twierdzeń firmy takie jak Apple i Nvidia nie skomentowały publicznie swojego zaangażowania w zbiór danych The Pile.

Co więcej, sytuacja ta uwypukla szerszy problem w branży AI: brak przejrzystości w zakresie źródeł danych szkoleniowych. Firmy często trzymają w tajemnicy szczegóły swoich źródeł danych, co rodzi obawy dotyczące potencjalnego niewłaściwego wykorzystania treści i konsekwencji dla twórców treści. Ten brak przejrzystości nie jest niczym nowym. Na początku tego roku dyrektor ds. technicznych OpenAI, Mira Murati, uniknęła bezpośredniego odniesienia się do tego, czy filmy z YouTube były wykorzystywane do szkolenia narzędzi AI, powołując się zamiast tego na wykorzystanie publicznie dostępnych lub licencjonowanych danych.

Dochodzenie Proof News wykazało również, że zbiór danych Pile zawiera potencjalnie problematyczne treści, takie jak uprzedzenia wobec niektórych płci i grup religijnych, a także wulgaryzmy. Pomimo tych problemów firmy takie jak Salesforce broniły sposobu wykorzystania zbioru danych, twierdząc, że jest on publicznie dostępny i wykorzystywany do celów akademickich i badawczych.

(przezPrzewodowy)