⇡#Бард против насилия
Чатбот Google Bard – до сих пор менее популярен, чем ChatGPT, и отчаянно стремится (не сам, конечно, а в лице своих разработчиков и маркетологов) перетянуть одеяло потребительского внимания на себя, – нашел в самом начале месяца настоящую мультимодальность, научившись генерировать изображение по текстовым. подсказки пользователей прямо во время диалога. Для создания картинок бот использует дебютировавшую в прошлом декабре модель Imagen 2 – очень гибкую, многофункциональную и «имманентно ответственную» (responsible by design), как гордо рапортуют ее авторы. Самое последнее обстоятельство вызывает, как выяснилось, восхищение далеко не всех пользователей мультимодального Bard. Скажем, в ответ на подсказку типа «Образы охваченный пламенем летающий электромобиль» ответственный ИИ разводит виртуальными руками: «Прошу прощения, но я не в состоянии выполнить этот запрос: моя задача — помогать людям, в частности, не допуская причинения им вреда, тогда как изображение горящего транспортного средства способно побуждать кого-то воспроизвести эту сцену на самом деле, что может привести к серьезным повреждениям или даже гибели».
Понятно, почему энтузиасты продолжают развивать генеративные II-проекты с открытым кодом, несмотря на очевидное отставание доступных рядовому пользователю аппаратных платформ для них от мощных корпоративных серверов – а также откровенную нехватку средств и возможностей для тренировки моделей, сравнимых по сложности с GPT- 4 (OpenAI) или Gemini Ultra (Google): «имманентная ответственность» многими воспринимается скорее как волюнтаризм и ханжество (плюс нежелание ввязываться в тяжбы, угрожающие огромными убытками), чем как реальная забота грандов «Большой Цифры» о ментальном и физическом здоровье я своих пользователей.
⇡#А усы и подделать можно
Отсканированное изображение – или сделанное на смартфон фото – того или иного документа сегодня во многих ситуациях и в целом ряде стран служит быстрым подтверждением личности человека онлайн: пусть не всегда заменяет бумажный оригинал, но вполне достоверным. Тем более настораживает готовность подпольного портала OnlyFake подрабатывать с использованием ІІ основную разновидность документа, удостоверяющего личность в США, — водительских прав. Не самого документа, точнее, а его снимков, которые выглядят более чем правдоподобно смартфонной камерой — которые, собственно, и требуют разные онлайновые службы (от ссудных контор до криптовалютных бирж) для быстрой проверки, есть ли человек, обращавшийся к ним тем, за кого себя выдает. Косвенным подтверждением того, что для фабрикации изделий применяется именно ІІ, нетипично низкая для такого рода «услуг» цена — всего 15 американских долларов.
Понятно, что проверки полицейской базой данных реально выданных прав такой документ не пройдет, но и предназначается он отнюдь не для предъявления людям в форме. И вообще, как заявил (правда, по другому поводу) также в начале февраля исполнительный вице-президент Samsung Патрик Чомет (Patrick Chomet), «на самом деле, сегодня не существует такого явления, как „настоящее фото“. Изображения создают датчики, но если при съемке применяется ИИ – для автофокусировки, для трансфокации, для размытия фона и прочего – как можно утверждать, что картинка реальна? Настоящих фотоснимков больше не существует, и точка». Ближе к концу месяца аналогичное мнение высказал и вице-председатель и президент (Vice-Chair & President) Microsoft Брэд Смит (Brad Smith): «Нельзя безусловно доверять каждому видео, которое вы смотрите, или слушающей аудиозаписи».
⇡#Теперь и с яблочным вкусом
Apple едва ли не последней среди глобальных ИТ-гигантов предложила публике в феврале II-модель для редактирования изображений по текстовым подсказкам – MGIE, созданной в сотрудничестве с исследователями из Университета Калифорнии в Санта-Барбаре. Мультимодальная модель с открытым кодом предлагает модифицировать готовые картинки разными способами – изменяя лицо изображенных людей или фон, на котором они были изначально; дневную сцену на ночную; штаны на шорты; летний пейзаж на зимний и т. п., не говоря уже о таких, обычно выполняемых графическим редактором, рутинных задачах, как обрезка кадра под нужный размер, поворот, коррекция контраста/яркости (включая выборочную: «увеличи насыщенность неба на 20%») , добавление фильтров, – и все это с помощью текстового интерфейса, принимающего команды на естественном языке. В Apple MGIE рассматривают как первый серьезный этап на пути развития мультимодальных генеративных моделей – необходим, в частности для обкатки реальными пользователями с целью сбора и анализа их отзывов.
⇡#Доверяй, но проверяй (на дипфейки)
С генерируемыми с помощью II сверхубедительными, но фальшивыми не только статическими картинками, но и аудио- и видеопотоками нужно что-то делать, причем срочно. С 8 февраля в США коммерческим компаниям запретили использовать голосовые ІІ-боты в ходе автоматизированных «холодных обзвонов» потенциальных клиентов, а в Гонконге финансовый сотрудник международной компании, думая, что участвует в сеансе одновременной видеосвязи с рядом своих коллег, по указанию финансового директора предприятия из Великобритании перевел сумму, эквивалентную 25,6 млн. дол. США, на указанный ему счет. Правда, довольно быстро выяснилось, что и сам «финансовый директор», и другие участники переговоров были сгенерированы II обманками – deepfakes. Настолько достоверными и убедительными, что подвергшийся обману сотрудник сначала был насторожен внезапным распоряжением, успокоился и выполнил необходимое — ясно видя, что лично знакомые ему люди всеми своими словами и действиями подтверждают личность британского босса.
⇡#Цена толерантности
Генеративная крупная языковая модель GPT-3, на которой основывалась первая версия ChatGPT, содержит 175 млрд…