متا از SAM 3 رونمایی کرد؛ پیشرفته‌ترین مدل هوش مصنوعی برای درک بصری!

خواندن این مطلب 2 دقیقه زمان میبرد

متا از SAM 3 رونمایی کرد؛ پیشرفته‌ترین مدل هوش مصنوعی برای درک بصری! - چیکاو

متا از Segment Anything Model 3 (SAM 3) به‌عنوان نسل جدید ابزارهای درک بصری پرده برداشت. این مدل تازه، بهبودهای چشمگیری در تشخیص اشیاء، بخش‌بندی و ردیابی در تصاویر و ویدئوها ارائه می‌دهد. کاربران اکنون می‌توانند با استفاده از پرامپت‌های متنی یا نمونه‌های تصویری، تقریباً هر مفهوم بصری را شناسایی و بخش‌بندی کنند.

فهرست مطلب

Segment Anything Playground؛ محیط جدید برای تجربه عموم کاربران

متا همچنین از Segment Anything Playground رونمایی کرده است؛ یک رابط کاربری جدید که به عموم مردم اجازه می‌دهد بدون نیاز به دانش فنی، با SAM 3 کار کرده و توانایی‌های ویرایش رسانه‌ای آن را آزمایش کنند.
این شرکت قصد دارد وزن‌های مدل، مقاله تحقیقاتی کامل و یک معیار ارزیابی تازه به‌نام SA-Co (بخش‌بندی با مفاهیم) را نیز منتشر کند تا توسعه‌دهندگان بتوانند روی بخش‌بندی متن‌باز با واژگان آزاد کار کنند.

علاوه بر این، متا مدل SAM 3D را نیز معرفی کرده است؛ مجموعه‌ای از مدل‌ها که قادر به بازسازی اشیاء و صحنه‌ها و همچنین تخمین ژست و شکل انسان هستند. این قابلیت‌ها در حوزه‌هایی مانند واقعیت افزوده، رباتیک و رایانش فضایی کاربرد خواهند داشت.

به‌روزرسانی‌های کلیدی SAM 3

SAM 3 قابلیت بخش‌بندی مفهومی بر اساس پرامپت (Promptable Concept Segmentation) را معرفی می‌کند؛ ویژگی‌ای که به مدل اجازه می‌دهد تنها با چند عبارت اسمی کوتاه یا نمونه‌های تصویری، هر آنچه را که کاربر توصیف می‌کند بخش‌بندی کند. متا ادعا می‌کند SAM 3 در معیار تازه‌ معرفی‌شده SA-Co، در هر دو زمینه تصویر و ویدئو، عملکرد بهتری نسبت به سیستم‌های پیشین دارد.

این مدل از طیف گسترده‌ای از پرامپت‌ها پشتیبانی می‌کند، از جمله:

ماسک
جعبه محدودکننده (Bounding Box)
نقاط
متن
نمونه تصویری

بدین ترتیب کاربران گزینه‌های متنوعی برای تعیین هدف خود در تشخیص یا ردیابی خواهند داشت.

SAM 3 با استفاده از یک زنجیره داده‌سازی گسترده آموزش دیده است که شامل انسان‌های برچسب‌زن، مدل SAM 3 و سیستم‌های هوش مصنوعی پشتیبان مانند یک کپشن‌ساز مبتنی بر Llama می‌شود. این رویکرد، پردازش و برچسب‌گذاری داده‌های بصری را به‌مراتب کارآمدتر از روش‌های سنتی انجام می‌دهد و زمان تولید داده را کاهش می‌دهد، به‌طوری که متا توانسته بیش از ۴ میلیون مفهوم بصری را در دیتاست آموزش مدل بگنجاند.

کاربردهای واقعی SAM 3

متا هم‌اکنون از SAM 3 و SAM 3D در قابلیت‌هایی مانند View in Room در فیسبوک مارکت‌پلیس استفاده می‌کند؛ قابلیتی که به کاربران امکان می‌دهد مشاهده کنند یک قطعه مبلمان در فضای خانه‌شان چگونه به‌نظر خواهد رسید.

این فناوری همچنین در ابزارهای آتی ویرایش بصری در سرویس‌های Meta AI، Meta.AI و اپلیکیشن Edits ادغام خواهد شد.

برچسب ها