ترکیب اشتباه میکروسکوپی الکترونی گیاهی چگونه از یک اسکن ناقص به مدل های هوش مصنوعی راه یافت و حالا در مقالات علمی جا خوش نموده است؟

به گزارش مجله بوشهری ها، در سال های اخیر، با توسعه روزافزون مدل های زبانی و ابزارهای نوشتاری مبتنی بر هوش مصنوعی، پژوهشگران شاهد پدیده ای غیرمنتظره بوده اند: واژه ها و عبارات بی معنی و ساختگی که به شکلی کاملاً جدی وارد مقالات علمی می شوند و گاهی آن قدر معتبر جلوه می نمایند که حتی داوران مجلات علمی هم متوجه بی اساس بودنشان نمی شوند.

ترکیب اشتباه میکروسکوپی الکترونی گیاهی چگونه از یک اسکن ناقص به مدل های هوش مصنوعی راه یافت و حالا در مقالات علمی جا خوش نموده است؟

یکی از نمونه های شگفت انگیز این خطا، عبارتی ست به نام میکروسکوپیِ الکترونیِ گیاهی (vegetative electron microscopy)؛ ترکیبی که در نگاه اول، بسیار حرفه ای و فنی به نظر می رسد اما در واقع هیچ معنای علمی مشخصی ندارد و حاصل یک رشته اشتباه پی در پی در زنجیره فراوری داده های هوش مصنوعی ست.

این ماجرا، فراتر از یک خطای تصادفی ساده است؛ بلکه نشانه ای است از ظهور چیزی که پژوهشگران آن را فسیل دیجیتال می نامند. فسیلی که نه در دل خاک، بلکه در عمق داده های دیجیتالی شکل گرفته است و حالا آرام آرام در حال توسعه در متون علمی، موتورهای جست وجو، مدل های زبانی و فکر دانشمندان است.

منشأ این فسیل دیجیتال کجاست؟

پژوهش ها نشان می دهد که ریشه پیدایش اصطلاح میکروسکوپیِ الکترونیِ گیاهی به دهه 1950 بازمی گردد؛ یعنی زمانی که چند مقاله کلاسیک در زمینه باکتری شناسی برای اولین بار اسکن و دیجیتال شده بودند. در فرایند اسکن این مقالات، خطایی ظریف اما کلیدی رخ داد: متن مقاله که در به صورت ستون بندی شده بود، به درستی در متن اسکن شده تشخیص داده نشد. نتیجه این شد که واژه گیاهی (vegetative) که در انتهای یک ستون آمده بود، با واژه الکترونی (electron) از ابتدای ستون مجاور اشتباهاً ترکیب شد. خروجی این اسکن معیوب، عبارتی را فراوری کرد که هیچ گاه نباید وجود می داشت: vegetative electron microscopy یا همان میکروسکوپیِ الکترونیِ گیاهی.

اما داستان به اینجا ختم نشد. دهه ها بعد، در سال های 2017 و 2019، این اصطلاح برای اولین بار وارد دنیای مقاله نویسی علمی شد. بعضی مقالات ایرانی در نسخه انگلیسی چکیده یا شرح تصاویرشان، از همین ترکیب اشتباه استفاده نموده بودند. آنالیز های دقیق تر نشان داد که علت این اشتباه، تفاوت بسیار جزئی نگارشی بین واژه های رویشی و روبشی در زبان فارسی است که تفاوت آنها فقط یک نقطه است، و مترجم های ماشینی مانند Google Translate آن را اشتباه تفسیر می کردند.

چگونه این اشتباه وارد حافظه مدل های زبانی شد؟

بخش نگران نماینده ماجرا از اینجا شروع می گردد. پژوهشگران تصمیم گرفتند آنالیز نمایند که آیا مدل های بزرگ هوش مصنوعی مانند ChatGPT این خطا را درون خود دارند یا نه. آن ها بخشی از جملات اولیه مقالات اسکن شده را به مدل ها دادند و از آن ها خواستند جمله را ادامه دهند. مدل GPT-3 به طور مکرر عبارت میکروسکوپیِ الکترونیِگیاهی را به عنوان ادامه طبیعی جمله فراوری می کرد. اما مدل های قدیمی تر مانند GPT-2 یا BERT چنین عبارتی را پیشنهاد نمی دادند. این تفاوت نشان می دهد که آلودگی داده ای از یک نقطه خاص به بعد وارد شده است.

پژوهش بیشتر نشان داد که این عبارت اشتباه به وسیله دیتاست بسیار بزرگ CommonCrawl به مدل های زبانی راه یافته است. CommonCrawl مجموعه ای بزرگ از صفحات اینترنتی است که بسیاری از مدل های هوش مصنوعی برای آموزش از آن استفاده می نمایند. از آنجا که هیچ آنالیز محتوایی عمیقی بر روی این داده ها انجام نمی گردد، اصطلاحاتی مانند میکروسکوپیِ الکترونیِ گیاهی به راحتی در میان میلیون ها گیگابایت متن وارد مدل ها شده و اکنون، به بخشی از پیش فرض های زبانی آن ها تبدیل شده است.

چرا اصلاح چنین خطایی تقریباً غیرممکن است؟

در نگاه اول، شاید تصور کنیم که این خطا با یک اصلاح کوچک قابل حل است. اما واقعیت پیچیده تر است. برای حذف چنین عبارتی از حافظه مدل های هوش مصنوعی، باید داده های آموزشی را از نو پالایش کرد، درحالی که این داده ها در ابعادی بزرگ - گاه چند میلیون گیگابایت - ذخیره شده اند.

دسترسی به آن ها نیز برای پژوهشگران مستقل تقریباً غیرممکن است، چرا که شرکت هایی مانند OpenAI یا Anthropic جزئیات دقیق آموزش مدل ها را افشا نمی نمایند.

از طرفی، اگر حتی بخواهیم با روش هایی مانند فیلتر کلیدواژه ها این اصطلاح را حذف کنیم، با مشکل دیگری روبه رو می شویم: مقالاتی که در خصوص این خطا هشدار داده اند - مانند همین مقاله - هم ممکن است به وسیله فیلترها حذف شوند. بنابراین راهکار ساده ای برای حذف میکروسکوپیِ الکترونیِ گیاهی وجود ندارد!

این اشتباه چه پیامدی برای دنیا علم دارد؟

پدیده هایی مانند میکروسکوپیِ الکترونیِ گیاهی فقط یک شوخی زبانی نیستند. آن ها نشانه ای از چالش های جدی در حوزه فراوری، پالایش و انتشار دانش هستند. بعضی نشریات علمی پس از شناسایی این خطا، مقالات را پس گرفته یا اصلاح نموده اند. اما بعضی دیگر در برابر اصلاح مقاومت نموده اند و حتی کوشش نموده اند برای این اصطلاح توجیه علمی بیاورند.

به علاوه، ابزارهایی مانند Problematic Paper Screener طراحی شده اند که محتوای مقالات را اسکن می نمایند و در صورت مشاهده عباراتی مانند این، هشدار می دهند. اما این ابزارها فقط می توانند با اشتباهات شناسایی شده مقابله نمایند؛ نه با خطاهایی که هنوز کشف نشده اند.

این ماجرا بعلاوه به پدیده دیگری نیز مربوط می گردد: ظهور اصطلاحات عجیب در مقالات هوش مصنوعی، مثل استفاده از ترکیب هایی مانند مطلعی جعلی (counterfeit consciousness) به جای هوش مصنوعی برای دور زدن فیلترهای نرم افزاری. در مواردی حتی دیده شده که عبارت من یک مدل زبانی هوش مصنوعی هستم در مقالات علمی درج شده است!

چگونه باید با فسیل های دیجیتال زندگی کرد؟

در حال حاضر، فراوری دانش با ابزارهای هوشمند شتاب گرفته است. اما همان طور که سرعت بالا می رود، احتمال بروز خطا هم بیشتر می گردد. هیچ سازمان یا نهاد مشخصی نیست که مسئول نظارت بر داده های آموزشی مدل های زبانی باشد. هیچ راه واحدی برای اصلاح اشتباهات شناخته شده وجود ندارد. و هیچ تضمینی نیست که خطاهای نو، به زودی در لایه های پنهان اطلاعات ما جا خوش ننمایند.

برای مقابله با این شرایط، سه راه وجود دارد:

1. شفافیت بیشتر شرکت های فناوری: باید اطلاعات دقیق تری درباره منابع آموزشی و روش های پالایش داده ها منتشر نمایند.

2. نقد و ارزیابی مداوم از سوی پژوهشگران: جامعه علمی باید با دقت بیشتر از همواره، مقالات را از منظر زبانی و محتوایی آنالیز کند.

3. بازبینی جدی در فرایند داوری علمی: ناشران و سردبیران باید مطلع باشند که هوش مصنوعی نه فقط ابزار یاری نویسنده، بلکه گاهی منشأ خطا نیز است.

منبع

منبع: یک پزشک
انتشار: 1 اردیبهشت 1404 بروزرسانی: 1 اردیبهشت 1404 گردآورنده: bushehrherfa.ir شناسه مطلب: 2369

به "ترکیب اشتباه میکروسکوپی الکترونی گیاهی چگونه از یک اسکن ناقص به مدل های هوش مصنوعی راه یافت و حالا در مقالات علمی جا خوش نموده است؟" امتیاز دهید

امتیاز دهید:

دیدگاه های مرتبط با "ترکیب اشتباه میکروسکوپی الکترونی گیاهی چگونه از یک اسکن ناقص به مدل های هوش مصنوعی راه یافت و حالا در مقالات علمی جا خوش نموده است؟"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید