متا از SAM 3 رونمایی کرد؛ پیشرفتهترین مدل هوش مصنوعی برای درک بصری!

متا از Segment Anything Model 3 (SAM 3) بهعنوان نسل جدید ابزارهای درک بصری پرده برداشت. این مدل تازه، بهبودهای چشمگیری در تشخیص اشیاء، بخشبندی و ردیابی در تصاویر و ویدئوها ارائه میدهد. کاربران اکنون میتوانند با استفاده از پرامپتهای متنی یا نمونههای تصویری، تقریباً هر مفهوم بصری را شناسایی و بخشبندی کنند.
Segment Anything Playground؛ محیط جدید برای تجربه عموم کاربران
متا همچنین از Segment Anything Playground رونمایی کرده است؛ یک رابط کاربری جدید که به عموم مردم اجازه میدهد بدون نیاز به دانش فنی، با SAM 3 کار کرده و تواناییهای ویرایش رسانهای آن را آزمایش کنند.
این شرکت قصد دارد وزنهای مدل، مقاله تحقیقاتی کامل و یک معیار ارزیابی تازه بهنام SA-Co (بخشبندی با مفاهیم) را نیز منتشر کند تا توسعهدهندگان بتوانند روی بخشبندی متنباز با واژگان آزاد کار کنند.
علاوه بر این، متا مدل SAM 3D را نیز معرفی کرده است؛ مجموعهای از مدلها که قادر به بازسازی اشیاء و صحنهها و همچنین تخمین ژست و شکل انسان هستند. این قابلیتها در حوزههایی مانند واقعیت افزوده، رباتیک و رایانش فضایی کاربرد خواهند داشت.
بهروزرسانیهای کلیدی SAM 3
SAM 3 قابلیت بخشبندی مفهومی بر اساس پرامپت (Promptable Concept Segmentation) را معرفی میکند؛ ویژگیای که به مدل اجازه میدهد تنها با چند عبارت اسمی کوتاه یا نمونههای تصویری، هر آنچه را که کاربر توصیف میکند بخشبندی کند. متا ادعا میکند SAM 3 در معیار تازه معرفیشده SA-Co، در هر دو زمینه تصویر و ویدئو، عملکرد بهتری نسبت به سیستمهای پیشین دارد.
این مدل از طیف گستردهای از پرامپتها پشتیبانی میکند، از جمله:
-
ماسک
-
جعبه محدودکننده (Bounding Box)
-
نقاط
-
متن
-
نمونه تصویری
بدین ترتیب کاربران گزینههای متنوعی برای تعیین هدف خود در تشخیص یا ردیابی خواهند داشت.
SAM 3 با استفاده از یک زنجیره دادهسازی گسترده آموزش دیده است که شامل انسانهای برچسبزن، مدل SAM 3 و سیستمهای هوش مصنوعی پشتیبان مانند یک کپشنساز مبتنی بر Llama میشود. این رویکرد، پردازش و برچسبگذاری دادههای بصری را بهمراتب کارآمدتر از روشهای سنتی انجام میدهد و زمان تولید داده را کاهش میدهد، بهطوری که متا توانسته بیش از ۴ میلیون مفهوم بصری را در دیتاست آموزش مدل بگنجاند.
کاربردهای واقعی SAM 3
متا هماکنون از SAM 3 و SAM 3D در قابلیتهایی مانند View in Room در فیسبوک مارکتپلیس استفاده میکند؛ قابلیتی که به کاربران امکان میدهد مشاهده کنند یک قطعه مبلمان در فضای خانهشان چگونه بهنظر خواهد رسید.
این فناوری همچنین در ابزارهای آتی ویرایش بصری در سرویسهای Meta AI، Meta.AI و اپلیکیشن Edits ادغام خواهد شد.




