research

Rewolucja AI napotyka na brak danych – co mogą zrobić badacze?

Szybko rosnące potrzeby danych w AI

Rozwój sztucznej inteligencji (AI) w ostatnich latach opierał się na gigantycznych zbiorach danych. Modele językowe, takie jak te za ChatGPT, potrzebują ogromnych ilości tekstów do treningu, aby osiągać coraz lepsze rezultaty. Jednak zasoby Internetu, chociaż ogromne, nie są nieskończone, a badacze ostrzegają, że wkrótce może ich zabraknąć.

Według raportu opublikowanego przez Epoch AI, do 2028 roku typowy zestaw danych do trenowania modeli AI osiągnie rozmiar porównywalny z całkowitą dostępną publicznie zawartością tekstową w Internecie. Oznacza to, że w ciągu zaledwie czterech lat możemy napotkać poważne ograniczenia w dostępie do danych dla AI.

Dlaczego kończą się dane?

Głównym problemem jest tempo, w jakim rośnie dostępna treść w Internecie. Raport szacuje,
że nowa zawartość tekstowa w sieci zwiększa się o mniej niż 10% rocznie, podczas gdy zapotrzebowanie na dane do treningu AI podwaja się każdego roku. Dodatkowo właściciele treści, tacy jak wydawcy prasowi, coraz częściej ograniczają dostęp do swoich materiałów.

Na przykład liczba witryn blokujących roboty internetowe wzrosła znacząco w 2024 roku, co dodatkowo ogranicza możliwości pozyskiwania danych. Działania te są wspierane przez liczne pozwy sądowe, takie jak sprawa wytoczona przez The New York Times przeciwko OpenAI
za naruszenie praw autorskich.

Czy ograniczenia zahamują rozwój AI?

Chociaż ograniczenia w dostępie do danych mogą spowolnić rozwój AI, twórcy modeli już szukają alternatyw. OpenAI oraz inne firmy, takie jak Anthropic, deklarują korzystanie z nowych metod,
w tym generowania syntetycznych danych oraz wykorzystania niestandardowych źródeł informacji.

Niektórzy badacze sugerują również przesunięcie uwagi z dużych, uniwersalnych modeli językowych na mniejsze, bardziej wyspecjalizowane systemy AI. Te mniejsze modele mogą być trenowane na ograniczonych, ale wysokiej jakości zbiorach danych, co pozwoli uniknąć problemów związanych z brakiem treści w sieci.

Eksploracja innych źródeł danych

Jednym z możliwych rozwiązań jest sięganie po dane spoza publicznego Internetu. Na przykład, firmy takie jak Meta wykorzystują dane z własnych produktów, w tym nagrania audio z urządzeń wirtualnej rzeczywistości, do trenowania swoich modeli AI. Inną opcją jest analiza danych specjalistycznych, takich jak informacje astronomiczne, genetyczne czy medyczne, które szybko się rozwijają.

Yann LeCun, jeden z pionierów współczesnej AI, zauważa, że ​​rozszerzenie treningu na inne typy danych, takie jak filmy czy obrazy, może otworzyć nowe możliwości. Według LeCuna, człowiek
w wieku czterech lat przetwarza ilość danych 50 razy większą niż model językowy w ciągu całego swojego treningu, patrząc jedynie na otaczające go obiekty.

Perspektywy na przyszłość

Pomimo wyzwań związanych z dostępem do danych, specjaliści są optymistyczni. Rozwój AI może ulec transformacji, zmierzając w kierunku bardziej zróżnicowanych metod pozyskiwania i wykorzystywania informacji. Dzięki innowacyjnym podejściom do danych, sztuczna inteligencja będzie mogła kontynuować swoje postępy, przy jednoczesnym zmniejszeniu zależności od zasobów Internetu.

Podobne wpisy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *