گوگل قابلیت‌ ویدئو زنده و اشتراک صفحه را به Gemini اضافه می‌کند

در دنیای پرسرعت فناوری، گوگل بار دیگر مرزهای هوش مصنوعی را جابجا میکند. با معرفی دو قابلیت پیشرفته ویدئوی زنده و اشتراک گذاری صفحه نمایش در دستیار هوشمند Gemini، این شرکت گام بلندی در جهت تحقق آینده تعامل انسان و ماشین برداشته است.

این نوآوری ها که بر پایه پروژه پیشرفته Astra توسعه یافته‌اند، نه تنها نحوه استفاده ما از دستگاه های هوشمند را متحول خواهند کرد، بلکه دریچه ای به سوی کاربردهای عملی بیسابقه ای در زندگی روزمره می گشایند. در ادامه به بررسی جامع این ویژگی‌های انقلابی و پیامدهای آنها میپردازیم.

  1. پردازش ویدئوی زنده (Live Video Processing):
    • این فناوری پیشرفته به Gemini اجازه می‌دهد با استفاده از دوربین گوشی، محیط اطراف شما را در لحظه تحلیل کند.
    • مثلاً می‌توانید دوربین را به سمت کمد لباس‌هایتان بگیرید و از Gemini بخواهید برای یک مهمانی رسمی به شما پیشنهاد ست بدهد.
    • یا هنگام گشت‌وگذار در شهر، با نشان دادن ساختمان‌ها، Gemini می‌تواند اطلاعات تاریخی یا کاربردی درباره آنها ارائه دهد.
  2. اشتراک‌گذاری صفحه نمایش (Screen Sharing):
    • این قابلیت به Gemini اجازه می‌دهد محتوای نمایش داده شده روی صفحه گوشی شما را ببیند و تحلیل کند.
    • مثلاً اگر در حال کار با یک اپلیکیشن پیچیده هستید، Gemini می‌تواند راهنمایی‌های مرحله‌به‌مرحله ارائه دهد.
    • یا اگر متنی را روی صفحه می‌بینید، می‌تواند آن را خلاصه کند یا به زبان دیگری ترجمه نماید.

جزییات فنی و محدودیت‌ها

• این ویژگی‌ها مبتنی بر پروژه Astra گوگل هستند که هدفش ایجاد هوش مصنوعی‌های چندوجهی (multimodal) است.

• فعلاً فقط برای کاربران Gemini Advanced (نسخه پولی با هزینه ماهانه حدود ۲۰ دلار) در دسترس است.

• به نظر می‌رسد گوشی‌های با رم کم مانند Pixel 9a ممکن است نتوانند از این قابلیت‌ها استفاده کنند.

• گوگل هنوز تاریخ دقیقی برای عرضه این ویژگی‌ها به کاربران رایگان اعلام نکرده است.

مقایسه با رقبا

گوگل با این حرکت به رقابت با شرکت‌هایی مانند:

  • OpenAI با قابلیت‌های پیشرفته صوتی-تصویری ChatGPT
  • متا با قابلیت‌های واقعیت افزوده در عینک‌های هوشمند Ray-Ban
    پرداخته است.

چرا این قابلیت‌ها مهم هستند؟

این پیشرفتها نشان‌دهنده جهشی بزرگ در تعامل انسان با هوش مصنوعی است، جایی که AI می‌تواند به‌صورت بصری و صوتی با محیط کاربر ارتباط برقرار کند، نه فقط از طریق متن.

به نظر میرسد گوگل با معرفی این قابلیتهای پیشرفته در Gemini، مسیر جدیدی را در رقابت هوش مصنوعی ترسیم کرده است.

این فناوری ها که ترکیبی بیسابقه از پردازش بصری، شنیداری و متنی را ارائه میدهند، نویدبخش آیندهای هستند که در آن دستیارهای هوشمند به طور طبیعی و همه جانبه در زندگی روزمره ما ادغام خواهند شد.

هرچند محدودیت های فعلی مانند نیاز به سختافزار قدرتمند و در دسترس نبودن برای کاربران رایگان وجود دارد، اما بدون شک این گام اولیه، پایه گذار تحولات بزرگی در صنعت هوش مصنوعی مصرف کننده خواهد بود. همانطور که این فناوری ها تکامل مییابند و گسترده تر میشوند، میتوانیم انتظار داشته باشیم که تعریف ما از تعامل با دستگاه های هوشمند به کلی دگرگون شود.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.