تکنولوژیهوش مصنوعی

کشف بی‌سابقه MIT: چگونه توکنایزر تصویر، تولیدِ تصویرِ بدونِ مولد را امکان می‌سازد؟

شاید تصور اینکه بتوان تصاویر خیره‌کننده و خلاقانه را با هوش مصنوعی، بدون نیاز به فرایندهای پیچیده و منابع محاسباتی عظیم تولید کرد، تا پیش از این، دست‌نیافتنی به نظر می‌رسید. اما تحقیقات پیشگامانه در حوزه هوش مصنوعی، افق‌های جدیدی را در ویرایش و خلق بصری گشوده است. این مقاله به بررسی یکی از برجسته‌ترین دستاوردهای اخیر می‌پردازد که انقلابی در تولید تصویر بدون مولد ایجاد کرده و مفهوم توکنایزر تصویر را فراتر از انتظارات پیشین برده است. در این رویکرد نوآورانه، نه تنها کارایی و سرعت به شکل چشمگیری افزایش می‌یابد، بلکه امکانات بی‌پایانی برای هنرمندان، طراحان و حتی صنایع پیشرفته مانند رباتیک و خودروهای خودران فراهم می‌آورد.

انقلاب در حوزه ویرایش و خلق تصاویر با بهره‌گیری از هوش مصنوعی، نویدبخش تحولی شگرف در فناوری‌های بصری است. محققان برجسته دانشگاه MIT، با معرفی روشی بدیع مبتنی بر توکنایزرهای یک‌بعدی، راهی نوین برای تولید و ویرایش تصاویر بدون نیاز به مولدهای سنتی ارائه کرده‌اند که نه تنها هزینه‌های محاسباتی را کاهش می‌دهد، بلکه افق‌های تازه‌ای را در حوزه‌هایی چون رباتیک و خودروهای خودران می‌گشاید.

تیم نویسندگان هامیا، با تعهد به ارائه به‌روزترین و دقیق‌ترین اطلاعات علمی و تخصصی، همواره در پی رصد آخرین فناوری‌ها، تکنولوژی‌ها و به‌روزرسانی‌ها از جهان اول و از برترین دانشگاه‌های دنیاست. این مقاله نیز که خلاصه‌ای از آنچه در کنفرانس ICML 2025 رونمایی شد، نتیجه همین تلاش بی‌وقفه در تحقیق و پژوهش است که به منظور افزایش دانش و بینش مخاطبان ارزشمند هامیا، به سمع و نظر شما عزیزان می‌رسد و بازتابی از ارزش و احترام ما به جامعه مخاطبان خود است.

تولید تصویر با بهره‌گیری از هوش مصنوعی، که متکی بر شبکه‌های عصبی برای خلق تصاویر جدید از ورودی‌های متنوع نظیر دستورات متنی یا همان پرامپت است، پیش‌بینی می‌شود تا پایان این دهه به صنعتی میلیارد دلاری بدل گردد. با وجود فناوری‌های کنونی، ساخت یک تصویر خیالی، برای مثال از دوستی که پرچمی را بر روی مریخ می‌کارد یا بدون ترس به داخل سیاهچاله پرواز می‌کند، ممکن است کمتر از یک ثانیه به طول انجامد. با این حال، پیش از آنکه مدل‌های هوش مصنوعی قادر به انجام چنین وظایفی باشند، مولدهای تصویری به طور معمول بر روی مجموعه‌داده‌های عظیمی متشکل از میلیون‌ها تصویر که غالباً با توضیحات متنی مرتبط جفت شده‌اند، آموزش می‌بینند. فرآیند آموزش این مدل‌های مولد می‌تواند بسیار زمان‌بر باشد، به طوری که هفته‌ها یا ماه‌ها به طول انجامد و در این حین منابع محاسباتی فراوانی را مصرف کند.

با این حال، این پرسش مطرح می‌شود که آیا امکان تولید تصاویر با بهره‌گیری از روش‌های هوش مصنوعی، بدون اتکا به هیچ‌گونه مولد سنتی وجود دارد؟ این امکان جذاب، به همراه ایده‌های نوآورانه دیگر، در مقاله‌ای پژوهشی که در کنفرانس بین‌المللی یادگیری ماشین (ICML 2025) ارائه شد، به تفصیل تشریح گردیده است. این کنفرانس در اوایل تابستان سال جاری در ونکوور، بریتیش کلمبیا برگزار گردید. این مقاله که تکنیک‌های بدیعی را برای دستکاری و تولید تصاویر معرفی می‌کند، حاصل همکاری لوکاس لائو بیر (Lukas Lao Beyer)، دانشجوی پژوهشگر در آزمایشگاه سیستم‌های اطلاعات و تصمیم‌گیری (LIDS) دانشگاه MIT؛ تیان‌هونگ لی (Tianhong Li)، پژوهشگر فوق‌دکترا در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) دانشگاه MIT؛ شین‌لی چن (Xinlei Chen) از بخش تحقیقات هوش مصنوعی فیس‌بوک؛ سرتاج کارامان (Sertac Karaman)، استاد هوانوردی و فضانوردی و مدیر LIDS دانشگاه MIT؛ و کایمینگ هه (Kaiming He)، دانشیار مهندسی برق و علوم کامپیوتر دانشگاه MIT است.

توکنایزرهای تک‌بعدی: تحولی در فشرده‌سازی تصویر

این پروژه گروهی، ریشه در یک تکلیف کلاسی برای سمینار تحصیلات تکمیلی در مورد مدل‌های مولد عمیق داشت که لائو بیر (Lukas Lao Beyer) در پاییز گذشته در آن شرکت کرده بود. در خلال مباحثات طول ترم، برای هر دو نفر، یعنی لائو بیر و هه (Kaiming He)  که استاد سمینار بودند، مشخص شد که این تحقیق پتانسیل چشمگیری فراتر از یک تکلیف خانگی معمولی را داراست. به زودی، همکاران دیگری نیز به این پروژه پژوهشی پیوستند تا در توسعه آن مشارکت نمایند.

نقطه آغازین تحقیق لائو بیر، مقاله‌ای بود که در ژوئن 2024 توسط پژوهشگران دانشگاه فنی مونیخ و شرکت چینی بایت‌دنس (ByteDance) منتشر گردید. این مقاله به معرفی رویکردی نوین برای نمایش اطلاعات بصری تحت عنوان توکنایزر تک‌بعدی پرداخته بود. با استفاده از این ابزار، که خود نوعی شبکه عصبی محسوب می‌شود، یک تصویر با ابعاد 256 در 256 پیکسل می‌تواند به دنباله‌ای متشکل از تنها 32 عدد که اصطلاحاً “توکن” نامیده می‌شوند، تبدیل گردد. لائو بیر (Lukas Lao Beyer) در این باره اظهار می‌دارد:

هدف من درک چگونگی دستیابی به چنین سطحی از فشرده‌سازی و شناسایی مفهوم واقعی این توکن‌ها بود.

Lukas Lao Beyer

توکنایزرهای نسل پیشین معمولاً یک تصویر را به آرایه‌ای از توکن‌های ۱۶x۱۶ تقسیم می‌کردند. هر یک از این توکن‌ها اطلاعات فشرده‌ای را مربوط به بخش خاصی از تصویر اصلی در خود جای می‌داد. در مقابل، توکنایزرهای تک‌بعدی نوین قادرند یک تصویر را با کارایی به مراتب بالاتری رمزگذاری کنند و در مجموع از تعداد توکن‌های بسیار کمتری بهره می‌برند. این توکن‌ها توانایی ثبت اطلاعات مربوط به کل تصویر را دارند (نه صرفاً یک بخش آن). علاوه بر این، هر یک از این توکن‌ها یک عدد 12 رقمی متشکل از 0 و 1 است که در مجموع 2 به توان 12 (حدود 4,000) امکان مختلف را فراهم می‌آورد. هه (Kaiming He) توضیح می‌دهد:

این رویکرد مشابه واژگانی متشکل از 4,000 کلمه است که یک زبان انتزاعی و نهفته را تشکیل می‌دهد که توسط کامپیوترها به کار گرفته می‌شود. اگرچه این زبان شبیه زبان انسان نیست، اما ما همچنان می‌توانیم در جهت درک معنای آن تلاش کنیم.

Kaiming He

کشف قابلیت‌های توکنایزر تصویر

این رویکرد دقیقاً همان نقطه‌ای بود که لائو بیر ابتدا قصد کاوش آن را داشت و به مثابه‌ی بذری برای مقاله‌ی ارائه‌شده در کنفرانس ICML 2025 عمل کرد. شیوه‌ای که او برای این پژوهش در پیش گرفت، از سادگی قابل توجهی برخوردار بود. لائو بیر بیان می‌کند: “برای درک عملکرد یک توکن خاص، می‌توان آن را با یک مقدار تصادفی جایگزین کرد و سپس بررسی نمود که آیا تغییر قابل مشاهده‌ای در خروجی حاصل می‌شود یا خیر.” وی مشاهده کرد که با جایگزینی یک توکن، کیفیت تصویر دگرگون شده و تصویری با وضوح پایین به تصویری با وضوح بالا و بالعکس تبدیل می‌شود. توکن دیگری بر تاری پس‌زمینه مؤثر بود، در حالی که توکنی دیگر روشنایی را تغییر می‌داد. او همچنین توکنی را کشف کرد که به “حالت” یا “ژست” مربوط می‌شد؛ برای مثال، در تصویر یک پرنده سینه سرخ، ممکن بود سر پرنده از راست به چپ جابجا شود.

لائو بیر (Lukas Lao Beyer) اظهار می‌دارد:

این یک دستاورد بی‌سابقه بود، زیرا تاکنون هیچ پژوهشگری تغییرات بصری قابل تشخیصی را ناشی از دستکاری توکن‌ها گزارش نکرده بود.

Lukas Lao Beyer

این یافته، افق‌های جدیدی را برای رویکردهای نوین در ویرایش تصاویر گشود. در واقع، گروه پژوهشی دانشگاه MIT نشان داد که چگونه می‌توان این فرآیند را به طور قابل توجهی ساده‌تر و خودکار ساخت، به گونه‌ای که نیازی به تغییر دستی و تک به تک توکن‌ها نباشد.

تولید تصویر بدون مولد سنتی

هه (Kaiming He) و همکارانش به دستاوردی حتی مهم‌تر در حوزه تولید تصویر دست یافتند. یک سیستم متداول تولید تصویر، عموماً شامل یک توکنایزر (مسئول فشرده‌سازی و کدگذاری داده‌های بصری) و یک مولد (قادر به ترکیب و سازماندهی این نمایش‌های فشرده برای خلق تصاویر جدید) است. اما پژوهشگران MIT راهی برای ایجاد تصاویر بدون نیاز به هیچ‌گونه مولدی کشف کردند. رویکرد جدید آن‌ها از یک توکنایزر تک‌بعدی و یک دیکودر بهره می‌برد که می‌تواند یک تصویر را از رشته‌ای از توکن‌ها بازسازی کند. با این حال، با هدایت یک شبکه عصبی از پیش آموزش‌دیده به نام CLIP (که به تنهایی قادر به تولید تصاویر نیست، اما می‌تواند میزان تطابق یک تصویر با یک متن مشخص را ارزیابی کند) تیم توانست، برای مثال، یک تصویر از یک پاندای قرمز را به یک ببر تبدیل کند. علاوه بر این، آن‌ها توانستند تصاویر یک ببر یا هر شکل دلخواه دیگر را کاملاً از ابتدا تولید نمایند؛ این فرآیند از حالتی آغاز می‌شود که تمامی توکن‌ها در ابتدا مقادیر تصادفی می‌گیرند و سپس به صورت تکراری تنظیم می‌شوند تا تصویر بازسازی‌شده به تدریج با متن دلخواه مطابقت بیشتری پیدا کند.

این گروه پژوهشی نشان داد که با همین پیکربندی (یعنی با اتکا به توکنایزر و دتوکنایزر، اما بدون مولد) آن‌ها قادر به انجام عملیات “inpainting (ترمیم تصویر)” نیز هستند؛ به این معنی که بخش‌هایی از تصاویر که به نوعی مفقود یا مخدوش شده‌اند را تکمیل کنند. اجتناب از به‌کارگیری مولد برای برخی از وظایف می‌تواند به کاهش چشمگیر هزینه‌های محاسباتی منجر شود، زیرا همانطور که پیشتر اشاره شد، مولدها معمولاً نیازمند فرآیندهای آموزشی گسترده‌ای هستند.

تأثیرات و کاربردهای گسترده توکنایزرهای نوین

هه (Kaiming He) توضیح می‌دهد که ممکن است عجیب به نظر رسد که گروه پژوهشی او در این کار هیچ چیز جدیدی اختراع نکردند. آنها نه توکنایزر تک‌بعدی را ابداع کردند و نه مدل CLIP را. وی تأکید می‌کند:

اما به این نتیجه رسیدیم که وقتی تمامی این اجزا را در کنار یکدیگر قرار می‌دهید، قابلیت‌های نوین و چشمگیری می‌توانند پدیدار شوند.

Kaiming He

ساینینگ ژیه (Saining Xie)، دانشمند علوم کامپیوتر از دانشگاه نیویورک، اظهار می‌دارد که این پژوهش، نقش توکنایزرها را بازتعریف می‌کند. او توضیح می‌دهد:

این تحقیق به وضوح نشان می‌دهد که توکنایزرهای تصویر (ابزارهایی که به طور معمول صرفاً برای فشرده‌سازی تصاویر به کار می‌روند) در واقع قابلیت‌های بسیار گسترده‌تری دارند.

Saining Xie

وی ادامه می‌دهد: “این حقیقت که یک توکنایزر تک‌بعدی ساده (اما بسیار فشرده) می‌تواند وظایفی نظیر ترمیم تصویر (inpainting) یا ویرایش تصویر با هدایت متن را بدون نیاز به آموزش یک مدل مولد کامل به انجام رساند، کاملاً شگفت‌انگیز است.” این موضوع، پتانسیل نهفته در این فناوری‌ها را فراتر از کاربردهای مرسوم آن‌ها نمایان می‌سازد.

ژوانگ لیو (Zhuang Liu)، پژوهشگر از دانشگاه پرینستون، نیز با دیدگاه‌های مطرح شده موافق است و بیان می‌کند که دستاورد گروه MIT نشان می‌دهد که ما قادر به تولید و دستکاری تصاویر به روشی بسیار ساده‌تر از آنچه پیش از این تصور می‌کردیم، هستیم. وی اساساً این تحقیق را به عنوان شاهدی بر این نکته می‌داند که تولید تصویر می‌تواند به عنوان یک محصول جانبی از یک فشرده‌ساز تصویر بسیار کارآمد حاصل شود، که این امر به طور بالقوه هزینه‌های تولید تصاویر را چندین برابر کاهش می‌دهد. این یافته‌ها می‌توانند تأثیر عمیقی بر اقتصاد و مقیاس‌پذیری فرآیندهای تولید تصویر داشته باشند.

کارامان (Karaman) به کاربردهای متعددی اشاره می‌کند که فراتر از حوزه سنتی بینایی کامپیوتر قابل تصور هستند. او اظهار می‌دارد:

برای مثال، می‌توانیم فرآیند توکنایز کردن اقدامات ربات‌ها یا خودروهای خودران را به همین شیوه مورد بررسی قرار دهیم، که این رویکرد می‌تواند به سرعت تأثیر این کار پژوهشی را گسترش دهد.

Karaman

این موضوع نشان‌دهنده ماهیت فراگیر و بین‌رشته‌ای پتانسیل‌های نهفته در این مدل‌های توکنایزر جدید است که محدود به یک حوزه خاص نمی‌شوند.

لائو بیر (Lao Beyer) نیز همین دیدگاه را تأیید می‌کند و خاطرنشان می‌سازد که میزان فشرده‌سازی بسیار بالا که توکنایزرهای یک‌بعدی ارائه می‌دهند، امکان انجام “کارهای شگفت‌انگیزی” را فراهم می‌آورد که می‌توانند در سایر حوزه‌ها نیز به کار گرفته شوند. او به عنوان مثال، به حوزه خودروهای خودران که یکی از علایق پژوهشی اوست، اشاره می‌کند. در این زمینه، توکن‌ها می‌توانند به جای نمایش مستقیم تصاویر، مسیرهای مختلفی را که یک وسیله نقلیه ممکن است طی کند، نشان دهند. این قابلیت می‌تواند به مدل‌سازی و برنامه‌ریزی حرکتی پیچیده‌تر و کارآمدتر در سیستم‌های خودران کمک کند.

ژیه (Xie) نیز به کاربردهای بالقوه‌ای که ممکن است از این ایده‌های نوآورانه حاصل شوند، بسیار علاقه‌مند است. او در پایان سخنان خود بیان می‌کند:

این [پژوهش] می‌تواند به کشف موارد استفاده واقعاً جالبی منجر شود.

Xie

این اظهارات، بر اهمیت و تأثیرگذاری بلندمدت این تحقیقات در حوزه‌های مختلف هوش مصنوعی و کاربردهای عملی آن تأکید دارد.

جمع بندی

مسیری که محققان MIT با معرفی توکنایزر تصویر و رویکرد تولید تصویر بدون مولد گشوده‌اند، نه تنها یک جهش فناورانه است، بلکه بنیانی محکم برای آینده‌ای کارآمدتر و خلاقانه‌تر در دنیای بصری فراهم می‌آورد. این مقاله تلاش کرد تا با زبانی دقیق و در عین حال قابل فهم، جزئیات این پیشرفت شگرف را که پتانسیل کاهش چشمگیر هزینه‌های محاسباتی و گسترش بی‌سابقه قابلیت‌های هوش مصنوعی در حوزه‌هایی چون طراحی گرافیک، هنر دیجیتال و حتی کاربردهای راهبردی در رباتیک و وسایل نقلیه خودران را دارد، تبیین نماید.

این دستاورد، فراتر از یک تحول صرفاً فنی، بیانگر روح خلاقیت و کارآفرینی در علم است که با رویکردی نوآورانه، موانع موجود را از میان برمی‌دارد و فرصت‌هایی بی‌حد و حصر برای افراد و سازمان‌ها ایجاد می‌کند. این مقاله، که در کنفرانس ICML 2025 با استقبال مواجه شد، نشان‌دهنده قدرت خلاقیت علمی در بازتعریف مرزهای فناوری است و خوانندگان را دعوت می‌کند تا با این دستاورد شگفت‌انگیز، به آینده‌ای بدیع در خلق و دستکاری تصاویر بپیوندند.

سوالات متداول

توکنایزر تصویر چیست و چگونه کار می‌کند؟

توکنایزر تصویر، فرآیندی است که تصاویر با ابعاد پیکسلی بالا را به نمایش‌های فشرده و گسسته (توکن‌ها) تبدیل می‌کند. این کار با تقسیم تصویر به بخش‌های کوچکتر و نگاشت هر بخش به یک توکن عددی انجام می‌شود. هدف، کاهش داده‌های ورودی برای مدل‌های هوش مصنوعی و افزایش کارایی پردازش است.

چرا توکن‌سازی تصویر اهمیت دارد؟

توکن‌سازی تصویر برای کاهش بار محاسباتی در پردازش تصاویر بزرگ، افزایش کارایی مدل‌های مولد و تسهیل وظایف بینایی ماشین مانند طبقه‌بندی و فشرده‌سازی ویدئو حیاتی است. این فرآیند به مدل‌ها کمک می‌کند تا الگوها را بهتر شناسایی کرده و اطلاعات ضروری تصویر را حفظ کنند.

تفاوت توکنایزرهای تک بعدی و دو بعدی در چیست؟

توکنایزرهای دو بعدی سنتی، تصاویر را به شبکه‌های نهفته دو بعدی با توکن‌های ثابت نگاشت می‌کنند که اغلب با افزونگی و حفظ اطلاعات سراسری مشکل دارند. در مقابل، توکنایزرهای تک بعدی (مانند TiTok) تصاویر را به دنباله‌های نهفته یک بعدی و فشرده‌تر تبدیل می‌کنند که کارایی فشرده‌سازی بالاتری داشته و اطلاعات کل تصویر را به شکل موثرتری ثبت می‌کنند.

“تولید تصویر بدون مولد” به چه معناست؟

این اصطلاح به روش‌هایی برای تولید تصاویر جدید اشاره دارد که به معماری‌های مولد سنتی مانند شبکه‌های مولد رقابتی (GANs) که از یک شبکه “مولد” و یک “تفکیک‌کننده” استفاده می‌کنند، متکی نیستند. در عوض، این روش‌ها از رویکردهای جایگزین مانند مدل‌های انتشار (Diffusion Models) یا جریان‌های نرمال‌سازی (Normalizing Flows) استفاده می‌کنند.

آیا توکنایزرهای تصویر می‌توانند بدون نیاز به یک مولد جداگانه، تصاویر تولید کنند؟

بله، تحقیقات اخیر نشان داده است که توکنایزرهای تصویر، به ویژه توکنایزرهای 1D فشرده، می‌توانند با همکاری یک کدگشا (detokenizer) و یک شبکه عصبی آماده مانند CLIP، تصاویر را تولید و ویرایش کنند. این رویکرد نیاز به آموزش یک مدل مولد بزرگ و اختصاصی را از بین می‌برد و می‌تواند هزینه‌ها را به طور قابل توجهی کاهش دهد.

امتیاز دهید!
0 / 0

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا