Несколько дней назад сообщалось, что разработчики II столкнулись с нехваткой данных для обучения передовым моделям, в том числе о планах Open AI обучать GPT-5 на видео с YouTube. Согласно материалу The New York Timesв погоне за новыми данными корпорации забывают об этике и морали.
К концу 2021 года OpenAI столкнулась с нехваткой авторитетных англоязычных текстов в интернете для обучения новейшей модели искусственного интеллекта – ей требовалось гораздо больше данных. Тогда разработчики OpenAI создали расшифровывающую аудиозапись с видеороликов на YouTube систему распознавания языка Whisper, издающей текст для обучения ІІ. По словам нескольких сотрудников, в компании понимали, что такой шаг может противоречить правилам использования YouTube, что запрещает использовать видеоролики независимо от платформы. Это не остановило OpenAI, которая расшифровала более миллиона часов видеороликов из YouTube. Полученный текст использовался для обучения GPT-4 – мощнейшей системы искусственного интеллекта в основе последней версии ChatGPT. В исследовании The New York Times говорится, что в гонку по данным включились все передовые разработчики ІІ, включая OpenAI, Google и Meta✴, причем компании часто игнорируют корпоративные политики, а иногда и закон.
Разработчики II все сильнее упираются в нехватку материала. Передовые чат-боты обучались на массивах цифровых текстов объемом до трех триллионов слов, что примерно вдвое больше объема материалов в библиотеке Бодлианского Оксфордского университета, в том числе датируемых еще 1602 годом. Наибольшую ценность для обучения ІІ составляют высококачественные данные по отредактированным профессионалами книг и статей. По данным исследовательского института Epoch, подобные тексты могут закончиться уже в 2026 году.
«Единственный практический способ существования таких инструментов – обучение на больших массивах информации без разрешения ее авторов. Объем необходимых данных настолько велик, что не поможет даже коллективное лицензирование.– Сай Дамле (Sy Damle), представляющий интересы венчурной компании Andreessen Horowitz.
OpenAI, Google и Meta✴ не скрывают, что их модели II учатся на открытых данных, однако не все создатели соответствующего контента приветствуют эту инициативу, что уже повлекло множество судебных разбирательств. В прошлом сама The New York Times подавала в суд OpenAI и Microsoft за то, что компании обучали чат-ботов на защищенных авторским правом материалах без разрешения владельцев. Тогда Microsoft и OpenAI заявили, что «добросовестно используют» материалы для создания собственных работ, что не запрещено законом об авторском праве.
В январе 2020 года физик-теоретик из Университета Джонса Хопкинса Джаред Каплан (Jared Kaplan) опубликовал работу о II, которая разожгла аппетиты их разработчиков. Он выразился однозначно: чем больше данных используется для обучения языковой модели, тем лучше она работает, подобно тому как студенты получают все больше знаний из прочитанных книг. Языковые модели могут устанавливать закономерности и взаимосвязи, что позволяет более точно обрабатывать новую информацию.
«Все очень удивились, что эти тенденции или законы масштабирования, как мы их называем, не менее точны, чем физические и астрономические»– говорит сейчас работающий в Anthropic Каплан.
Разработчики II уже давно используют огромные массивы публичных цифровых данных, в том числе статьи из «Википедии» и Common Crawl — базы данных более 250 млрд интернет-страниц, собранных с 2007 года. Прежде чем “кормить” эти данные ИИ, их тщательно фильтровали на предмет “нежелательных” материалов. Объемы необходимых для обучения II в 2020 году данных сейчас кажутся смешными, ведь тогда массив из 30 тысяч картинок из Flickr казался огромным.
Создание GPT-3, вышедшее в ноябре 2020 года, ознаменовало начало эры погони по новым данным – модель обучали на 300 млрд «токенов», представляющих отдельные слова или их фрагменты. Научившись этим данным, система генерировала посты в блогах, стихи и даже писала программы. В 2022 году подразделение Google Deepmind протестировало 400 II-моделей, изменяя объем данных для обучения и другие факторы. Оказалось, что Каплан прав, и чем больше входных данных, тем лучше работает ИИ. Гонка продолжается: в 2023 году китайцы представили обученную ни 3,2 триллиона английских и китайских лексем модель Skywork, а PaLM 2 от Google «поглотила» 3,6 триллиона токенов.
Позже Сэм Альтман (Sam Altman) из OpenAI заявил, что данные рано или поздно закончатся – он знает, о чем говорит, ведь компания годами собирала данные, обрабатывала и обучала на них ІІ. Среди использованных данных был программный код GitHub, базы данных шахматных ходов, школьные тесты и домашние задания старшеклассников. К концу 2021 года они кончились. Помимо расшифровки аудио- и видеоматериалов рассматривалась покупка компаний, имеющих доступ к огромным объемам цифровых данных.
Некоторые сотрудники Google знали, что OpenAI расшифровывает видео с YouTube, но бездействовали, потому что этим занималась сама Google, а это потенциально нарушало авторские права создателей видеороликов. Подняв шум вокруг OpenAI, Google рискует привлечь общественное внимание и к своим разработкам. Однако представители Google говорят, что правила использования сервиса позволяют использовать данные YouTube для разработки новых функций видеоплатформы. Юрист Berger Singerman, специализирующийся на интеллектуальной собственности, Джеффри Лоттенберг (Geoffrey Lottenberg) отмечает, что в своих правилах Google использует крайне расплывчатую формулировку. И это сделано намеренно.
Google хотела обучать свои модели на открытых данных Google Docs, Google Sheets и других продуктах. В политике конфиденциальности Google говорилось, что компания может использовать публичные данные для обучения языковым моделям Google и другим продуктам, таким как Google Translate. Теперь список продуктов кроме Google Translate содержит упоминания Bard и «облачных ИИ». Сотрудников компании специально проинструктировали выпустить новую редакцию политики конфиденциальности перед Днем независимости США, когда мнения людей заняты будущими праздниками.
Глава Meta✴ Марк Цукерберг (Mark Zuckerberg) годами развивал второе направление, но выход ChatGPT в конце 2022 года покинул его компанию далеко позади. Трое бывших и нынешних сотрудников Meta✴ рассказали, что стремясь догнать OpenAI, он день и ночь донимал менеджеров и ведущих инженеров, чтобы те как можно быстрее выпустили конкурирующий продукт. Но как и все остальные, Meta✴ уперлась лбом в стену недостатка данных.
По словам вице-президента по генеративным ІІ Ахмаду Аль-Дахле (Ahmad Al-Dahle), его команда использовала почти все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете для обучения собственной II-модели. В конце концов, Аль-Дахле заявил, что Meta✴ не превзойдет ChatGPT без большего количества данных. До марта-апреля 2023 года…