Google научила Gemini 2.5 понимать и передавать эмоции в диалогах

На конференции Google I/O 2025 компания представила революционную версию мультимодальной модели Gemini 2.5 с поддержкой эмоционального голосового взаимодействия и генерации аудио в реальном времени.

G. Ostrov

5 июня 2025

Компания Google на своей ежегодной конференции I/O 2025 представила значительное обновление искусственного интеллекта Gemini 2.5, которое кардинально меняет подход к голосовому взаимодействию с ИИ. Новая модель Gemini 2.5 Flash Preview теперь способна не только понимать эмоциональную окраску речи пользователя, но и адаптировать свои ответы с соответствующей интонацией и эмоциональной выразительностью.

Ключевые возможности эмоционального ИИ

Революционные функции Gemini 2.5 включают в себя распознавание эмоций в голосе собеседника и способность генерировать ответы с подходящей эмоциональной окраской. Модель может адаптировать не только интонацию, но и акцент, обеспечивая естественное общение на более чем 24 языках. Система способна игнорировать фоновые шумы и интегрироваться с внешними инструментами, такими как поиск Google, для получения актуальной информации прямо во время диалога.

Расширенные функции синтеза речи

Особое внимание разработчики уделили возможностям текст-в-речь (TTS). Gemini 2.5 позволяет пользователям точно контролировать стиль озвучивания, темп речи и эмоциональную выразительность. Более того, модель поддерживает генерацию диалогов с участием нескольких голосов, что открывает новые горизонты для создания подкастов, аудиокниг и других мультимедийных проектов.

Технология прозрачности SynthID

Для обеспечения этической прозрачности все аудиоматериалы, созданные Gemini 2.5, автоматически маркируются технологией SynthID. Это позволяет легко идентифицировать контент как сгенерированный искусственным интеллектом, что критически важно в эпоху дипфейков и синтетических медиа.

Доступность для разработчиков

Новые возможности доступны разработчикам в предварительной версии через платформы Google AI Studio и Vertex AI. Тестирование функций можно проводить через специальные вкладки Stream и Generate Media в Google AI Studio.

Gemini 2.5 представляет собой значительный прорыв в области мультимодальных ИИ-систем, объединяя текст, изображения, аудио и видео в единую интеллектуальную платформу. Эти инновации открывают широкие перспективы для создания интерактивных приложений, виртуальных ассистентов и революционных решений в сфере образования.

Подробнее о Google AI и его продуктах можно узнать на официальном сайте Google AI.

В случае каких-либо проблем напишите нам, мы поможем быстро и качественно!