گوگل قابلیت ویدئو زنده و اشتراک صفحه را به Gemini اضافه میکند
در دنیای پرسرعت فناوری، گوگل بار دیگر مرزهای هوش مصنوعی را جابجا میکند. با معرفی دو قابلیت پیشرفته ویدئوی زنده و اشتراک گذاری صفحه نمایش در دستیار هوشمند Gemini، این شرکت گام بلندی در جهت تحقق آینده تعامل انسان و ماشین برداشته است.
این نوآوری ها که بر پایه پروژه پیشرفته Astra توسعه یافتهاند، نه تنها نحوه استفاده ما از دستگاه های هوشمند را متحول خواهند کرد، بلکه دریچه ای به سوی کاربردهای عملی بیسابقه ای در زندگی روزمره می گشایند. در ادامه به بررسی جامع این ویژگیهای انقلابی و پیامدهای آنها میپردازیم.
- پردازش ویدئوی زنده (Live Video Processing):
- این فناوری پیشرفته به Gemini اجازه میدهد با استفاده از دوربین گوشی، محیط اطراف شما را در لحظه تحلیل کند.
- مثلاً میتوانید دوربین را به سمت کمد لباسهایتان بگیرید و از Gemini بخواهید برای یک مهمانی رسمی به شما پیشنهاد ست بدهد.
- یا هنگام گشتوگذار در شهر، با نشان دادن ساختمانها، Gemini میتواند اطلاعات تاریخی یا کاربردی درباره آنها ارائه دهد.
- اشتراکگذاری صفحه نمایش (Screen Sharing):
- این قابلیت به Gemini اجازه میدهد محتوای نمایش داده شده روی صفحه گوشی شما را ببیند و تحلیل کند.
- مثلاً اگر در حال کار با یک اپلیکیشن پیچیده هستید، Gemini میتواند راهنماییهای مرحلهبهمرحله ارائه دهد.
- یا اگر متنی را روی صفحه میبینید، میتواند آن را خلاصه کند یا به زبان دیگری ترجمه نماید.
جزییات فنی و محدودیتها
• این ویژگیها مبتنی بر پروژه Astra گوگل هستند که هدفش ایجاد هوش مصنوعیهای چندوجهی (multimodal) است.
• فعلاً فقط برای کاربران Gemini Advanced (نسخه پولی با هزینه ماهانه حدود ۲۰ دلار) در دسترس است.
• به نظر میرسد گوشیهای با رم کم مانند Pixel 9a ممکن است نتوانند از این قابلیتها استفاده کنند.
• گوگل هنوز تاریخ دقیقی برای عرضه این ویژگیها به کاربران رایگان اعلام نکرده است.
مقایسه با رقبا
گوگل با این حرکت به رقابت با شرکتهایی مانند:
- OpenAI با قابلیتهای پیشرفته صوتی-تصویری ChatGPT
- متا با قابلیتهای واقعیت افزوده در عینکهای هوشمند Ray-Ban
پرداخته است.
چرا این قابلیتها مهم هستند؟
این پیشرفتها نشاندهنده جهشی بزرگ در تعامل انسان با هوش مصنوعی است، جایی که AI میتواند بهصورت بصری و صوتی با محیط کاربر ارتباط برقرار کند، نه فقط از طریق متن.
به نظر میرسد گوگل با معرفی این قابلیتهای پیشرفته در Gemini، مسیر جدیدی را در رقابت هوش مصنوعی ترسیم کرده است.
این فناوری ها که ترکیبی بیسابقه از پردازش بصری، شنیداری و متنی را ارائه میدهند، نویدبخش آیندهای هستند که در آن دستیارهای هوشمند به طور طبیعی و همه جانبه در زندگی روزمره ما ادغام خواهند شد.
هرچند محدودیت های فعلی مانند نیاز به سختافزار قدرتمند و در دسترس نبودن برای کاربران رایگان وجود دارد، اما بدون شک این گام اولیه، پایه گذار تحولات بزرگی در صنعت هوش مصنوعی مصرف کننده خواهد بود. همانطور که این فناوری ها تکامل مییابند و گسترده تر میشوند، میتوانیم انتظار داشته باشیم که تعریف ما از تعامل با دستگاه های هوشمند به کلی دگرگون شود.