GPT-4o اکنون می تواند تصاویری با متن تقریباً بی عیب و نقص تولید کند

خواندن این مطلب 1 دقیقه زمان میبرد

GPT-4o اکنون می تواند تصاویری با متن تقریباً بی عیب و نقص تولید کند - چیکاو

اوپن‌آی به‌تازگی قابلیت تولید تصاویر با متن خوانا و دقیق را به مدل GPT-4o اضافه کرده است. این ارتقاء چشمگیر، مشکل تولید متن‌های نامفهوم و ناخوانا را که در مدل‌های قبلی هوش مصنوعی رایج بود، حل کرده و کاربران می‌توانند تصاویر پیچیده‌تر و حرفه‌ای‌تری خلق کنند.

فهرست مطلب

چرا این قابلیت انقلابی است؟

✅ متن‌های کاملاً خوانا:

تابلوها، عنوان‌ها و نوشته‌ها در تصاویر واضح و بدون خطا هستند (برخلاف مدل‌های قدیمی که متن‌های بی‌معنی تولید می‌کردند).

✅ ویرایش گفت‌وگومحور:

می‌توانید با گفتن جمله‌ای ساده (مثلاً “یک گربه با کلاه کارآگاهی”) شروع کنید و سپس در مکالمه، جزئیات را قدم‌به‌قدم اصلاح کنید (مثلاً “عینک تک‌چشم هم اضافه کن!”).

✅ ترکیب چندین المان در یک تصویر:

GPT-4o می‌تواند ۱۰ تا ۲۰ شیء را در یک صحنه مدیریت کند، درحالی که بسیاری از رقبا در پردازش ۵ تا ۸ شیء مشکل دارند.

✅ استفاده از تصاویر موجود:

حتی می‌توانید یک عکس واقعی را آپلود کنید و از GPT-4o بخواهید تغییراتی مانند اضافه کردن متن یا اشیاء جدید اعمال کند.

محدودیت‌های فعلی

❌ متن‌های غیرلاتین (مثل فارسی/عربی) هنوز گاهی ناخوانا می‌شوند.
❌ تصاویر با بیش از ۲۰ شیء ممکن است دچار خطا شوند.
❌ برش ناخواسته حاشیه تصاویر در برخی موارد اتفاق می‌افتد.

مقایسه با مدل‌های قدیمی

ویژگی	مدل‌های قدیمی (مثل DALL·E 3)	GPT-4o
خوانایی متن	ضعیف (متن‌های ناواضح)	عالی (مثل طراحی انسانی)
انعطاف‌پذیری در ویرایش	نیاز به تکرار پِرامپت	امکان مکالمه تعاملی
پیچیدگی صحنه	محدودیت در تعداد اشیاء	پردازش صحنه‌های شلوغ‌تر