گوگل در جریان رویداد I/O از قابلیتهای پیشرفته مدل Gemini 2.5 در حوزه دیالوگ صوتی مبتنی بر هوش مصنوعی و تولید صدا رونمایی کرد؛ مدلی که از پایه بهصورت چندرسانهای طراحی شده و قادر است بهطور یکپارچه انواع محتوا شامل متن، تصویر، صوت، ویدئو و کد را درک و تولید کند.
این مدلها هماکنون در محصولات، نمونهها و زبانهای مختلف در سراسر جهان برای ارائه خدمات صوتی استفاده میشوند. قابلیتهایی نظیر «Audio Overviews» در NotebookLM و پروژه Astra تنها بخشی از کاربردهای این مدل به شمار میروند.
دیالوگ صوتی آنی (Real-time Audio Dialog)
مدل Gemini 2.5 بهگونهای طراحی شده است که قادر است مکالمه انسانی را با ظرافتهای موجود در لحن، لهجه و حتی نشانههای غیربیانی (نظیر خنده) بهخوبی درک و تولید کند. این مدل گفتوگویی روان، طبیعی و با تأخیر بسیار کم را فراهم میکند.
برخی از مهمترین ویژگیهای دیالوگ صوتی در Gemini 2.5 عبارتند از:
- مکالمه طبیعی: ارائه صدا با کیفیت بالا، تنوع در بیان و آهنگ گفتار، با کمترین میزان تأخیر.
- کنترل سبک: امکان تغییر لحن، لهجه، سبک و حتی نجوا از طریق دستورات متنی.
- یکپارچهسازی با ابزارها: توانایی دسترسی به اطلاعات لحظهای از طریق جستجوی گوگل یا ابزارهای توسعهدهندگان، در جریان مکالمه.
- تشخیص زمینه و مکالمه هوشمند: قابلیت نادیدهگیری صداهای پسزمینه و تمرکز بر گفتوگوی اصلی.
- درک همزمان صدا و تصویر: امکان مکالمه درباره محتوای ویدیویی در تماسهای تصویری یا اشتراکگذاری صفحه.
- چندزبانه: پشتیبانی از بیش از ۲۴ زبان و قابلیت ترکیب زبانها در یک جمله.
- گفتوگوی احساسی: تشخیص لحن صدا و پاسخگویی متناسب با آن.
- گفتوگوی استدلالی پیشرفته: بهرهمندی از قابلیتهای استدلالی برای پاسخگویی هوشمندانه در موضوعات پیچیده.
تولید صوت کنترلشده (TTS)
نسل جدید فناوری تبدیل متن به گفتار (TTS) در Gemini 2.5 به کاربران امکان میدهد علاوه بر طبیعی بودن صدا، کنترل کاملی بر سبک، لحن، بیان احساسی و سرعت اجرا داشته باشند.
برجستهترین ویژگیها در این بخش عبارتند از:
- اجرای پویا: خوانش متون با حال و هوای احساسی متنوع، مناسب برای شعر، خبر یا داستانسرایی.
- کنترل سرعت و تلفظ: امکان تنظیم سرعت خواندن و بهبود دقت در تلفظ واژهها.
- تولید دیالوگ چندگانه: امکان تولید مکالمههای دوطرفه جذاب از طریق متن ورودی.
- چندزبانه: تولید صدا به بیش از ۲۴ زبان.
مدل Gemini 2.5 در دو نسخه Pro Preview و Flash Preview ارائه میشود که به ترتیب برای وظایف پیچیده و کاربردهای روزمره طراحی شدهاند. این قابلیتها به توسعهدهندگان اجازه میدهد محتوای صوتی مورد نیاز برای اطلاعیهها، داستانها، پادکستها، بازیهای ویدیویی و بسیاری موارد دیگر را بهصورت پویا تولید کنند.
Google با معرفی Gemini 2.5، گامی مهم در توسعه تعامل هوشمند میان انسان و ماشین برداشته است.