گوگل در جریان رویداد I/O از قابلیت‌های پیشرفته مدل Gemini 2.5 در حوزه دیالوگ صوتی مبتنی بر هوش مصنوعی و تولید صدا رونمایی کرد؛ مدلی که از پایه به‌صورت چندرسانه‌ای طراحی شده و قادر است به‌طور یکپارچه انواع محتوا شامل متن، تصویر، صوت، ویدئو و کد را درک و تولید کند.

این مدل‌ها هم‌اکنون در محصولات، نمونه‌ها و زبان‌های مختلف در سراسر جهان برای ارائه خدمات صوتی استفاده می‌شوند. قابلیت‌هایی نظیر «Audio Overviews» در NotebookLM و پروژه Astra تنها بخشی از کاربردهای این مدل به شمار می‌روند.

دیالوگ صوتی آنی (Real-time Audio Dialog)

مدل Gemini 2.5 به‌گونه‌ای طراحی شده است که قادر است مکالمه انسانی را با ظرافت‌های موجود در لحن، لهجه و حتی نشانه‌های غیربیانی (نظیر خنده) به‌خوبی درک و تولید کند. این مدل گفت‌وگویی روان، طبیعی و با تأخیر بسیار کم را فراهم می‌کند.

برخی از مهم‌ترین ویژگی‌های دیالوگ صوتی در Gemini 2.5 عبارتند از:

  • مکالمه طبیعی: ارائه صدا با کیفیت بالا، تنوع در بیان و آهنگ گفتار، با کمترین میزان تأخیر.
  • کنترل سبک: امکان تغییر لحن، لهجه، سبک و حتی نجوا از طریق دستورات متنی.
  • یکپارچه‌سازی با ابزارها: توانایی دسترسی به اطلاعات لحظه‌ای از طریق جستجوی گوگل یا ابزارهای توسعه‌دهندگان، در جریان مکالمه.
  • تشخیص زمینه و مکالمه هوشمند: قابلیت نادیده‌گیری صداهای پس‌زمینه و تمرکز بر گفت‌وگوی اصلی.
  • درک همزمان صدا و تصویر: امکان مکالمه درباره محتوای ویدیویی در تماس‌های تصویری یا اشتراک‌گذاری صفحه.
  • چندزبانه: پشتیبانی از بیش از ۲۴ زبان و قابلیت ترکیب زبان‌ها در یک جمله.
  • گفت‌وگوی احساسی: تشخیص لحن صدا و پاسخ‌گویی متناسب با آن.
  • گفت‌وگوی استدلالی پیشرفته: بهره‌مندی از قابلیت‌های استدلالی برای پاسخ‌گویی هوشمندانه در موضوعات پیچیده.

تولید صوت کنترل‌شده (TTS)

نسل جدید فناوری تبدیل متن به گفتار (TTS) در Gemini 2.5 به کاربران امکان می‌دهد علاوه بر طبیعی بودن صدا، کنترل کاملی بر سبک، لحن، بیان احساسی و سرعت اجرا داشته باشند.

برجسته‌ترین ویژگی‌ها در این بخش عبارتند از:

  • اجرای پویا: خوانش متون با حال و هوای احساسی متنوع، مناسب برای شعر، خبر یا داستان‌سرایی.
  • کنترل سرعت و تلفظ: امکان تنظیم سرعت خواندن و بهبود دقت در تلفظ واژه‌ها.
  • تولید دیالوگ چندگانه: امکان تولید مکالمه‌های دوطرفه جذاب از طریق متن ورودی.
  • چندزبانه: تولید صدا به بیش از ۲۴ زبان.

مدل Gemini 2.5 در دو نسخه Pro Preview و Flash Preview ارائه می‌شود که به ترتیب برای وظایف پیچیده و کاربردهای روزمره طراحی شده‌اند. این قابلیت‌ها به توسعه‌دهندگان اجازه می‌دهد محتوای صوتی مورد نیاز برای اطلاعیه‌ها، داستان‌ها، پادکست‌ها، بازی‌های ویدیویی و بسیاری موارد دیگر را به‌صورت پویا تولید کنند.

Google با معرفی Gemini 2.5، گامی مهم در توسعه تعامل هوشمند میان انسان و ماشین برداشته است.

به اشتراک بگذارید:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *