شاید تصور اینکه بتوان تصاویر خیرهکننده و خلاقانه را با هوش مصنوعی، بدون نیاز به فرایندهای پیچیده و منابع محاسباتی عظیم تولید کرد، تا پیش از این، دستنیافتنی به نظر میرسید. اما تحقیقات پیشگامانه در حوزه هوش مصنوعی، افقهای جدیدی را در ویرایش و خلق بصری گشوده است. این مقاله به بررسی یکی از برجستهترین دستاوردهای اخیر میپردازد که انقلابی در تولید تصویر بدون مولد ایجاد کرده و مفهوم توکنایزر تصویر را فراتر از انتظارات پیشین برده است. در این رویکرد نوآورانه، نه تنها کارایی و سرعت به شکل چشمگیری افزایش مییابد، بلکه امکانات بیپایانی برای هنرمندان، طراحان و حتی صنایع پیشرفته مانند رباتیک و خودروهای خودران فراهم میآورد.
انقلاب در حوزه ویرایش و خلق تصاویر با بهرهگیری از هوش مصنوعی، نویدبخش تحولی شگرف در فناوریهای بصری است. محققان برجسته دانشگاه MIT، با معرفی روشی بدیع مبتنی بر توکنایزرهای یکبعدی، راهی نوین برای تولید و ویرایش تصاویر بدون نیاز به مولدهای سنتی ارائه کردهاند که نه تنها هزینههای محاسباتی را کاهش میدهد، بلکه افقهای تازهای را در حوزههایی چون رباتیک و خودروهای خودران میگشاید.
تیم نویسندگان هامیا، با تعهد به ارائه بهروزترین و دقیقترین اطلاعات علمی و تخصصی، همواره در پی رصد آخرین فناوریها، تکنولوژیها و بهروزرسانیها از جهان اول و از برترین دانشگاههای دنیاست. این مقاله نیز که خلاصهای از آنچه در کنفرانس ICML 2025 رونمایی شد، نتیجه همین تلاش بیوقفه در تحقیق و پژوهش است که به منظور افزایش دانش و بینش مخاطبان ارزشمند هامیا، به سمع و نظر شما عزیزان میرسد و بازتابی از ارزش و احترام ما به جامعه مخاطبان خود است.
فهرست مطالب
تولید تصویر با بهرهگیری از هوش مصنوعی، که متکی بر شبکههای عصبی برای خلق تصاویر جدید از ورودیهای متنوع نظیر دستورات متنی یا همان پرامپت است، پیشبینی میشود تا پایان این دهه به صنعتی میلیارد دلاری بدل گردد. با وجود فناوریهای کنونی، ساخت یک تصویر خیالی، برای مثال از دوستی که پرچمی را بر روی مریخ میکارد یا بدون ترس به داخل سیاهچاله پرواز میکند، ممکن است کمتر از یک ثانیه به طول انجامد. با این حال، پیش از آنکه مدلهای هوش مصنوعی قادر به انجام چنین وظایفی باشند، مولدهای تصویری به طور معمول بر روی مجموعهدادههای عظیمی متشکل از میلیونها تصویر که غالباً با توضیحات متنی مرتبط جفت شدهاند، آموزش میبینند. فرآیند آموزش این مدلهای مولد میتواند بسیار زمانبر باشد، به طوری که هفتهها یا ماهها به طول انجامد و در این حین منابع محاسباتی فراوانی را مصرف کند.
با این حال، این پرسش مطرح میشود که آیا امکان تولید تصاویر با بهرهگیری از روشهای هوش مصنوعی، بدون اتکا به هیچگونه مولد سنتی وجود دارد؟ این امکان جذاب، به همراه ایدههای نوآورانه دیگر، در مقالهای پژوهشی که در کنفرانس بینالمللی یادگیری ماشین (ICML 2025) ارائه شد، به تفصیل تشریح گردیده است. این کنفرانس در اوایل تابستان سال جاری در ونکوور، بریتیش کلمبیا برگزار گردید. این مقاله که تکنیکهای بدیعی را برای دستکاری و تولید تصاویر معرفی میکند، حاصل همکاری لوکاس لائو بیر (Lukas Lao Beyer)، دانشجوی پژوهشگر در آزمایشگاه سیستمهای اطلاعات و تصمیمگیری (LIDS) دانشگاه MIT؛ تیانهونگ لی (Tianhong Li)، پژوهشگر فوقدکترا در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) دانشگاه MIT؛ شینلی چن (Xinlei Chen) از بخش تحقیقات هوش مصنوعی فیسبوک؛ سرتاج کارامان (Sertac Karaman)، استاد هوانوردی و فضانوردی و مدیر LIDS دانشگاه MIT؛ و کایمینگ هه (Kaiming He)، دانشیار مهندسی برق و علوم کامپیوتر دانشگاه MIT است.
توکنایزرهای تکبعدی: تحولی در فشردهسازی تصویر
این پروژه گروهی، ریشه در یک تکلیف کلاسی برای سمینار تحصیلات تکمیلی در مورد مدلهای مولد عمیق داشت که لائو بیر (Lukas Lao Beyer) در پاییز گذشته در آن شرکت کرده بود. در خلال مباحثات طول ترم، برای هر دو نفر، یعنی لائو بیر و هه (Kaiming He) که استاد سمینار بودند، مشخص شد که این تحقیق پتانسیل چشمگیری فراتر از یک تکلیف خانگی معمولی را داراست. به زودی، همکاران دیگری نیز به این پروژه پژوهشی پیوستند تا در توسعه آن مشارکت نمایند.
نقطه آغازین تحقیق لائو بیر، مقالهای بود که در ژوئن 2024 توسط پژوهشگران دانشگاه فنی مونیخ و شرکت چینی بایتدنس (ByteDance) منتشر گردید. این مقاله به معرفی رویکردی نوین برای نمایش اطلاعات بصری تحت عنوان توکنایزر تکبعدی پرداخته بود. با استفاده از این ابزار، که خود نوعی شبکه عصبی محسوب میشود، یک تصویر با ابعاد 256 در 256 پیکسل میتواند به دنبالهای متشکل از تنها 32 عدد که اصطلاحاً “توکن” نامیده میشوند، تبدیل گردد. لائو بیر (Lukas Lao Beyer) در این باره اظهار میدارد:
هدف من درک چگونگی دستیابی به چنین سطحی از فشردهسازی و شناسایی مفهوم واقعی این توکنها بود.
Lukas Lao Beyer
توکنایزرهای نسل پیشین معمولاً یک تصویر را به آرایهای از توکنهای ۱۶x۱۶ تقسیم میکردند. هر یک از این توکنها اطلاعات فشردهای را مربوط به بخش خاصی از تصویر اصلی در خود جای میداد. در مقابل، توکنایزرهای تکبعدی نوین قادرند یک تصویر را با کارایی به مراتب بالاتری رمزگذاری کنند و در مجموع از تعداد توکنهای بسیار کمتری بهره میبرند. این توکنها توانایی ثبت اطلاعات مربوط به کل تصویر را دارند (نه صرفاً یک بخش آن). علاوه بر این، هر یک از این توکنها یک عدد 12 رقمی متشکل از 0 و 1 است که در مجموع 2 به توان 12 (حدود 4,000) امکان مختلف را فراهم میآورد. هه (Kaiming He) توضیح میدهد:
این رویکرد مشابه واژگانی متشکل از 4,000 کلمه است که یک زبان انتزاعی و نهفته را تشکیل میدهد که توسط کامپیوترها به کار گرفته میشود. اگرچه این زبان شبیه زبان انسان نیست، اما ما همچنان میتوانیم در جهت درک معنای آن تلاش کنیم.
Kaiming He
کشف قابلیتهای توکنایزر تصویر
این رویکرد دقیقاً همان نقطهای بود که لائو بیر ابتدا قصد کاوش آن را داشت و به مثابهی بذری برای مقالهی ارائهشده در کنفرانس ICML 2025 عمل کرد. شیوهای که او برای این پژوهش در پیش گرفت، از سادگی قابل توجهی برخوردار بود. لائو بیر بیان میکند: “برای درک عملکرد یک توکن خاص، میتوان آن را با یک مقدار تصادفی جایگزین کرد و سپس بررسی نمود که آیا تغییر قابل مشاهدهای در خروجی حاصل میشود یا خیر.” وی مشاهده کرد که با جایگزینی یک توکن، کیفیت تصویر دگرگون شده و تصویری با وضوح پایین به تصویری با وضوح بالا و بالعکس تبدیل میشود. توکن دیگری بر تاری پسزمینه مؤثر بود، در حالی که توکنی دیگر روشنایی را تغییر میداد. او همچنین توکنی را کشف کرد که به “حالت” یا “ژست” مربوط میشد؛ برای مثال، در تصویر یک پرنده سینه سرخ، ممکن بود سر پرنده از راست به چپ جابجا شود.
لائو بیر (Lukas Lao Beyer) اظهار میدارد:
این یک دستاورد بیسابقه بود، زیرا تاکنون هیچ پژوهشگری تغییرات بصری قابل تشخیصی را ناشی از دستکاری توکنها گزارش نکرده بود.
Lukas Lao Beyer
این یافته، افقهای جدیدی را برای رویکردهای نوین در ویرایش تصاویر گشود. در واقع، گروه پژوهشی دانشگاه MIT نشان داد که چگونه میتوان این فرآیند را به طور قابل توجهی سادهتر و خودکار ساخت، به گونهای که نیازی به تغییر دستی و تک به تک توکنها نباشد.
تولید تصویر بدون مولد سنتی
هه (Kaiming He) و همکارانش به دستاوردی حتی مهمتر در حوزه تولید تصویر دست یافتند. یک سیستم متداول تولید تصویر، عموماً شامل یک توکنایزر (مسئول فشردهسازی و کدگذاری دادههای بصری) و یک مولد (قادر به ترکیب و سازماندهی این نمایشهای فشرده برای خلق تصاویر جدید) است. اما پژوهشگران MIT راهی برای ایجاد تصاویر بدون نیاز به هیچگونه مولدی کشف کردند. رویکرد جدید آنها از یک توکنایزر تکبعدی و یک دیکودر بهره میبرد که میتواند یک تصویر را از رشتهای از توکنها بازسازی کند. با این حال، با هدایت یک شبکه عصبی از پیش آموزشدیده به نام CLIP (که به تنهایی قادر به تولید تصاویر نیست، اما میتواند میزان تطابق یک تصویر با یک متن مشخص را ارزیابی کند) تیم توانست، برای مثال، یک تصویر از یک پاندای قرمز را به یک ببر تبدیل کند. علاوه بر این، آنها توانستند تصاویر یک ببر یا هر شکل دلخواه دیگر را کاملاً از ابتدا تولید نمایند؛ این فرآیند از حالتی آغاز میشود که تمامی توکنها در ابتدا مقادیر تصادفی میگیرند و سپس به صورت تکراری تنظیم میشوند تا تصویر بازسازیشده به تدریج با متن دلخواه مطابقت بیشتری پیدا کند.
این گروه پژوهشی نشان داد که با همین پیکربندی (یعنی با اتکا به توکنایزر و دتوکنایزر، اما بدون مولد) آنها قادر به انجام عملیات “inpainting (ترمیم تصویر)” نیز هستند؛ به این معنی که بخشهایی از تصاویر که به نوعی مفقود یا مخدوش شدهاند را تکمیل کنند. اجتناب از بهکارگیری مولد برای برخی از وظایف میتواند به کاهش چشمگیر هزینههای محاسباتی منجر شود، زیرا همانطور که پیشتر اشاره شد، مولدها معمولاً نیازمند فرآیندهای آموزشی گستردهای هستند.
تأثیرات و کاربردهای گسترده توکنایزرهای نوین
هه (Kaiming He) توضیح میدهد که ممکن است عجیب به نظر رسد که گروه پژوهشی او در این کار هیچ چیز جدیدی اختراع نکردند. آنها نه توکنایزر تکبعدی را ابداع کردند و نه مدل CLIP را. وی تأکید میکند:
اما به این نتیجه رسیدیم که وقتی تمامی این اجزا را در کنار یکدیگر قرار میدهید، قابلیتهای نوین و چشمگیری میتوانند پدیدار شوند.
Kaiming He
ساینینگ ژیه (Saining Xie)، دانشمند علوم کامپیوتر از دانشگاه نیویورک، اظهار میدارد که این پژوهش، نقش توکنایزرها را بازتعریف میکند. او توضیح میدهد:
این تحقیق به وضوح نشان میدهد که توکنایزرهای تصویر (ابزارهایی که به طور معمول صرفاً برای فشردهسازی تصاویر به کار میروند) در واقع قابلیتهای بسیار گستردهتری دارند.
Saining Xie
وی ادامه میدهد: “این حقیقت که یک توکنایزر تکبعدی ساده (اما بسیار فشرده) میتواند وظایفی نظیر ترمیم تصویر (inpainting) یا ویرایش تصویر با هدایت متن را بدون نیاز به آموزش یک مدل مولد کامل به انجام رساند، کاملاً شگفتانگیز است.” این موضوع، پتانسیل نهفته در این فناوریها را فراتر از کاربردهای مرسوم آنها نمایان میسازد.
ژوانگ لیو (Zhuang Liu)، پژوهشگر از دانشگاه پرینستون، نیز با دیدگاههای مطرح شده موافق است و بیان میکند که دستاورد گروه MIT نشان میدهد که ما قادر به تولید و دستکاری تصاویر به روشی بسیار سادهتر از آنچه پیش از این تصور میکردیم، هستیم. وی اساساً این تحقیق را به عنوان شاهدی بر این نکته میداند که تولید تصویر میتواند به عنوان یک محصول جانبی از یک فشردهساز تصویر بسیار کارآمد حاصل شود، که این امر به طور بالقوه هزینههای تولید تصاویر را چندین برابر کاهش میدهد. این یافتهها میتوانند تأثیر عمیقی بر اقتصاد و مقیاسپذیری فرآیندهای تولید تصویر داشته باشند.
کارامان (Karaman) به کاربردهای متعددی اشاره میکند که فراتر از حوزه سنتی بینایی کامپیوتر قابل تصور هستند. او اظهار میدارد:
برای مثال، میتوانیم فرآیند توکنایز کردن اقدامات رباتها یا خودروهای خودران را به همین شیوه مورد بررسی قرار دهیم، که این رویکرد میتواند به سرعت تأثیر این کار پژوهشی را گسترش دهد.
Karaman
این موضوع نشاندهنده ماهیت فراگیر و بینرشتهای پتانسیلهای نهفته در این مدلهای توکنایزر جدید است که محدود به یک حوزه خاص نمیشوند.
لائو بیر (Lao Beyer) نیز همین دیدگاه را تأیید میکند و خاطرنشان میسازد که میزان فشردهسازی بسیار بالا که توکنایزرهای یکبعدی ارائه میدهند، امکان انجام “کارهای شگفتانگیزی” را فراهم میآورد که میتوانند در سایر حوزهها نیز به کار گرفته شوند. او به عنوان مثال، به حوزه خودروهای خودران که یکی از علایق پژوهشی اوست، اشاره میکند. در این زمینه، توکنها میتوانند به جای نمایش مستقیم تصاویر، مسیرهای مختلفی را که یک وسیله نقلیه ممکن است طی کند، نشان دهند. این قابلیت میتواند به مدلسازی و برنامهریزی حرکتی پیچیدهتر و کارآمدتر در سیستمهای خودران کمک کند.
ژیه (Xie) نیز به کاربردهای بالقوهای که ممکن است از این ایدههای نوآورانه حاصل شوند، بسیار علاقهمند است. او در پایان سخنان خود بیان میکند:
این [پژوهش] میتواند به کشف موارد استفاده واقعاً جالبی منجر شود.
Xie
این اظهارات، بر اهمیت و تأثیرگذاری بلندمدت این تحقیقات در حوزههای مختلف هوش مصنوعی و کاربردهای عملی آن تأکید دارد.
جمع بندی
مسیری که محققان MIT با معرفی توکنایزر تصویر و رویکرد تولید تصویر بدون مولد گشودهاند، نه تنها یک جهش فناورانه است، بلکه بنیانی محکم برای آیندهای کارآمدتر و خلاقانهتر در دنیای بصری فراهم میآورد. این مقاله تلاش کرد تا با زبانی دقیق و در عین حال قابل فهم، جزئیات این پیشرفت شگرف را که پتانسیل کاهش چشمگیر هزینههای محاسباتی و گسترش بیسابقه قابلیتهای هوش مصنوعی در حوزههایی چون طراحی گرافیک، هنر دیجیتال و حتی کاربردهای راهبردی در رباتیک و وسایل نقلیه خودران را دارد، تبیین نماید.
این دستاورد، فراتر از یک تحول صرفاً فنی، بیانگر روح خلاقیت و کارآفرینی در علم است که با رویکردی نوآورانه، موانع موجود را از میان برمیدارد و فرصتهایی بیحد و حصر برای افراد و سازمانها ایجاد میکند. این مقاله، که در کنفرانس ICML 2025 با استقبال مواجه شد، نشاندهنده قدرت خلاقیت علمی در بازتعریف مرزهای فناوری است و خوانندگان را دعوت میکند تا با این دستاورد شگفتانگیز، به آیندهای بدیع در خلق و دستکاری تصاویر بپیوندند.
سوالات متداول
توکنایزر تصویر، فرآیندی است که تصاویر با ابعاد پیکسلی بالا را به نمایشهای فشرده و گسسته (توکنها) تبدیل میکند. این کار با تقسیم تصویر به بخشهای کوچکتر و نگاشت هر بخش به یک توکن عددی انجام میشود. هدف، کاهش دادههای ورودی برای مدلهای هوش مصنوعی و افزایش کارایی پردازش است.
توکنسازی تصویر برای کاهش بار محاسباتی در پردازش تصاویر بزرگ، افزایش کارایی مدلهای مولد و تسهیل وظایف بینایی ماشین مانند طبقهبندی و فشردهسازی ویدئو حیاتی است. این فرآیند به مدلها کمک میکند تا الگوها را بهتر شناسایی کرده و اطلاعات ضروری تصویر را حفظ کنند.
توکنایزرهای دو بعدی سنتی، تصاویر را به شبکههای نهفته دو بعدی با توکنهای ثابت نگاشت میکنند که اغلب با افزونگی و حفظ اطلاعات سراسری مشکل دارند. در مقابل، توکنایزرهای تک بعدی (مانند TiTok) تصاویر را به دنبالههای نهفته یک بعدی و فشردهتر تبدیل میکنند که کارایی فشردهسازی بالاتری داشته و اطلاعات کل تصویر را به شکل موثرتری ثبت میکنند.
این اصطلاح به روشهایی برای تولید تصاویر جدید اشاره دارد که به معماریهای مولد سنتی مانند شبکههای مولد رقابتی (GANs) که از یک شبکه “مولد” و یک “تفکیککننده” استفاده میکنند، متکی نیستند. در عوض، این روشها از رویکردهای جایگزین مانند مدلهای انتشار (Diffusion Models) یا جریانهای نرمالسازی (Normalizing Flows) استفاده میکنند.
بله، تحقیقات اخیر نشان داده است که توکنایزرهای تصویر، به ویژه توکنایزرهای 1D فشرده، میتوانند با همکاری یک کدگشا (detokenizer) و یک شبکه عصبی آماده مانند CLIP، تصاویر را تولید و ویرایش کنند. این رویکرد نیاز به آموزش یک مدل مولد بزرگ و اختصاصی را از بین میبرد و میتواند هزینهها را به طور قابل توجهی کاهش دهد.
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️



![برنامه نویسی چیست؟ [نسخه مبتدی در سال 2022]](https://unixweb.work/jurnal/wp-content/uploads/2022/08/برنامه-نویسی-چیست؟-نسخه-مبتدی-در-سال-2022-550x370.webp)



