Не прошло и двух месяцев с момента запуска передовой нейросети Gemini, а Google уже анонсировала ее преемнику. Сегодня была представлена большая языковая модель Gemini 1.5, которая сразу стала доступна разработчикам и корпоративным пользователям, а вскоре начнется ее распространение среди потребителей. Google ясно дала понять, что хочет использовать Gemini в качестве бизнес-инструмента, персонального помощника и не только.
У Gemini 1.5 много улучшений. Модель Gemini 1.5 Pro, которая ляжет в основу многих сервисов Google, превосходит Gemini 1.0 Pro на 87% в тестах и соответственно находится примерно на одном уровне с высококлассной Gemini 1.0 Ultra. При создании новой модели используется набирающий популярность подход «смесь экспертов» (Mixture of Experts – MoE), который предполагает, что при отправке запроса запускается только часть общей модели, а не вся. Такой подход должен сделать модель быстрее пользовательской и более эффективной для Google.
Но у Gemini 1.5 есть одна новая вещь, которая особенно радует всю компанию Google, начиная с генерального директора Сундара Пича (Sundar Pichai). Новая версия нейросети имеет огромное контекстное окно, что означает, что она может обрабатывать гораздо большие запросы и просматривать гораздо больше информации одновременно. Размер окна составляет 1 миллион токенов, что гораздо больше 128 000 токенов в GPT-4 от OpenAI и 32 000 в текущей Gemini Pro. “Это примерно 10 или 11 часов видео, десятки тысяч строк кода”, – отметил Пичаи. Еще он добавил, что исследователи Google тестируют контекстное окно на 10 миллионов токенов – это, например, вся серия “Игры престолов” в одном запросе.
В качестве примера Пичаи говорит, что в это контекстное окно можно вместить всю трилогию «Властелин колец». Это кажется слишком специфическим, но, возможно, кто-то в Google проверит, не обнаружит ли Gemini ошибок в преемственности, пытается разобраться в сложной родословной Средиземья. Или II, возможно, сможет понять Тома Бомбадила.
Пичаи также считает, что увеличенное контекстное окно будет очень полезно для бизнеса. «Это позволит вам использовать примеры, в которых можно добавить много личного контекста и информации в момент запроса, – говорит он. – Считайте, что мы расширили окно запроса». Глава Google воображает, что кинематографисты могут скачать весь свой фильм и спросить у Gemini, что скажут рецензенты, а компании смогут использовать Gemini для обработки массы финансовых документов. «Я считаю это одним из самых больших прорывов, которые мы совершили», – говорит он.
Пока Gemini 1.5 будет доступна только для бизнес-пользователей и разработчиков через Google Vertex AI и AI Studio. Впоследствии она заменит Gemini 1.0, а стандартная версия Gemini Pro – доступная всем на сайте gemini.google.com и в приложениях Google – будет заменена на 1.5 Pro с контекстным окном на 128 000 токенов. Чтобы получить миллион, придется доплатить. Google также тестирует безопасность и нравственные пределы модели, особенно относительно нового увеличенного контекстного окна.
Сейчас Google находится в безумной гонке за создание наилучшего инструмента II, тогда как компании по всему миру пытаются определить свою собственную стратегию II и сотрудничать с OpenAI, Google или кем-то еще. Недавно OpenAI анонсировала «память» для ChatGPT и, похоже, готовится к выходу на рынок веб-поиска. Пока Gemini выглядит впечатляюще, особенно для тех, кто уже работает в экосистеме Google, у компании еще много работы.
В конце концов, говорит Пичаи, все эти 1.0 и 1.5, Pro и Ultra и корпоративные сражения не будут иметь значения для пользователей. «Люди будут просто потреблять лучший опыт пользователя, – говорит он. – Это как пользоваться смартфоном, не обращая внимания на процессор под крышкой». Но сейчас, по его словам, мы все еще находимся на стадии, когда каждый знает, какой чип находится внутри его телефона, потому что это имеет значение. “Базовые технологии меняются так быстро”, – говорит глава Google. – Людям не безразлично».
Если вы заметили ошибку, выделите ее мышкой и нажмите CTRL+ENTER.