Компания Google представила обновление своего чат-бота Gemini – теперь он лучше генерирует изображения из текстовых запросов и отвечает голосом на вопросы. Кроме того, ИИ научился работать в режиме реального времени. Пока что новинка доступна тестировщикам AI Studio и Vertex AI.
Ключевые факты
- Согласно пресс-релизу, компания улучшила производительность Gemini 2.0 в некоторых аспектах: создание картинок, работа с видео и аудио, а также ответы на сложные вопросы (например, по физике). Google утверждает, что новый инструмент в два раза быстрее своего предшественника Gemini 1.5.
- Кроме того, компания внедрила в чат-бот инструмент для генерации изображений. Теперь пользователи могут убирать/добавлять предметы, менять их форму, а также соединять две картинки.
- Все изображения, созданные Gemini, помечены специальным водяным знаком SynthID, который может распознать сам чат-бот.
- У юзеров появилась возможность запустить демонстрацию экрана для Gemini. ИИ анализирует происходящее на экране и отвечает на вопросы. При этом пользователь может перебивать чат-бот и задавать уточняющие вопросы в процессе.
- Дополнительно модель ИИ умеет отвечать на вопросы юзеров разными голосами. Например, Gemini меняет интонацию и стиль речи в зависимости от заданных параметров. Кроме этого, чат-бот может начать разговор на английском языке, закончить – на корейском.
- Ещё одна из функций – голосовое управление ИИ в режиме реального времени. Например, пользователь просит создать сравнительный график, а Gemini сразу это выполняет. Вдобавок можно попросить уточнить информацию и ИИ тут же внесёт правки в график.
- Теперь юзеры могут отключить использование поисковой системы Google Search, указав это в текстовом запросе к чат-боту. Напомним, раньше это было сделать нельзя.
- Google обещает, что новые функции станут доступны всем пользователям в начале 2025 года.
Автор новости: Алина Горюнова
Читайте больше новостей медиасферы здесь
Подпишитесь на соцсети «Соли», чтобы не пропустить другие тексты