مسلماً همه ما نام ChatGPT، چتبات مبتنی بر هوش مصنوعی محبوب این روزهای دنیای فناوی به گوشمان خورده است. اگرچه امروزه میلیونها نفر در سراسر جهان از آن استفاده میکنند، اما زمانی که OpenAI، سازنده ChatGPT، آن را در نوامبر ۲۰۲۲ عرضه کرد، انتظارات کمی از آن داشت و فکر نمیکرد روزی بتواند به چنین موفقیت بزرگی دست پیدا کند. درحقیقت هیچ فردی در OpenAI تصور چنین موفقیتی را نداشت. در این مطلب میخواهیم نگاهی به داستان ساخت چت جیپیتی از زبان سازندگان آن داشته باشیم.
«ساندینی آگاروال»، یکی از افرادی که روی بخش سیاستهای OpenAI کار میکند، گفته است که به چت جیپیتی بهعنوان یک پیشنمایش تحقیقاتی نگاه میشد. به گفته او، ChatGPT یک نسخه بهروزشده از یک فناوری قدیمی با عمر دو سال بود و هدف از عرضهاش، جمعآوری بازخوردها بهصورت عمومی و بهبودش بود.
«لیام فدوس»، یکی از دانشمندان OpenAI که روی ChatGPT کار کرده است، میگوید که آنها نمیخواستند این چتبات را بهعنوان یک پیشرفت بنیادی بزرگ و چشمگیر عرضه کنند.
رسانه MIT Technology Review برای اینکه از نحوه ساخت ChatGPT، چگونگی بهروزرسانیاش از زمان عرضه و همچنین حس سازندگانش درباره موفقیت آن آگاه شود، تصمیم گرفته است با ۴ نفری که توسعه چت جیپیتی نقش داشتهاند، مصاحبه کند.
در کنار ساندینی آگاروال و لیام فدوس، این رسانه با «جان شولمن»، همبنیانگذار OpenAI و «جن لیک»، رهبر تیم همترازی OpenAI که روی مشکلات ساخت هوش مصنوعی و مشکلات کاربران کار میکند نیز صحبت کرده است.
بهروزرسانی ChatGPT از زمان عرضه و قرارداد میلیارد دلاری با مایکروسافت
از ماه نوامبر که چت جیپیتی عرضه شده، OpenAI چندینبار آن را بهروزرسانی کرده است. پژوهشگران برای بهروزرسانی آن از تکنیکی به نام «آموزش خصمانه» استفاده میکنند تا مانع از این شوند که کاربران آن را به کارهای نامناسب مجبور کنند. البته با وجود چنین رویکردی، بازهم کاربران توانستهاند قوانین این چتبات را دور بزنند.
در روش آموزش خصمانه، چندین چتبات در مقابل یکدیگر قرار میگیرند: یک چتبات نقش دشمن یا حریف را بازی میکند و با تولید متن به چتبات دیگر حمله میکند تا آن را مجبور کند محدودیتهایش را کنار بگذارد و جوابهای ناخواسته ارائه کند. در ادامه حملات موفق به دادههای آموزشی ChatGPT اضافه میشوند تا اگر در آینده با چنین حملاتی از سوی کاربران مواجه شد، قادر به دفع آنها باشد.
در کنار بهروزرسانیها، OpenAI پس از ارائه ChatGPT توانست یک قرارداد چندین میلیارد دلاری با مایکروسافت امضا کند. علاوهبراین، با شرکت Bain شروع به همکاری کرد تا از مدلهای هوش مصنوعی مولد یا زایا OpenAI برای کمپینهای تبلیغاتی مشتریانش استفاده کند.
در حالت کلی، در همین چند ماهی که ChatGPT در اختیار کاربران قرار گرفته، خیلیها ـ از کاربران عادی گرفته تا متخصصان ـ را شگفتزده کرده است و حتی توانسته از امتحانهای مختلفی سربلند بیرون بیاید. اما ChatGPT از کجا آمد؟ OpenAI چگونه مطمئن شد که برای عرضه آن آمادگی دارد؟ و مهمتر اینکه این شرکت برای آینده چه برنامهای دارد؟
سازندگان ChatGPT درباره نحوه ساخت و آینده آن چه میگویند؟
در ادامه جوابهای سؤالات بالا را از زبان سازندگان چتبات محبوب OpenAI میخوانید.
لیک: صادقانه بگویم، شوکهکننده بود. ما غافلگیر شدیم و سعی کردیم با آن همراهی کنیم.
شولمن: روزهای پس از عرضه، بیشازحد توییتر را بررسی میکردیم و با دورهای دیوانهوار روبهرو شدم که فید فقط با اسکرینشاتهای چت جیپیتی پر میشد. انتظار داشتم یک ابزار جذاب برای مردم باشد و طرفدارانی پیدا کند، اما واقعاً انتظار نداشتم به این سطح از محبوبیت برسد.
آگاروال: فکر میکنم همه ما شگفتزده شدیم وقتی دیدیم مردم چگونه شروع به استفاده از آن کردهاند. ما در حدی روی این مدلها کار کردهایم که فراموش میکنیم چقدر میتوانند برای دیگران و دنیای بیرون شگفانگیز باشند.
فدوس: ما واقعاً از میزان استقبال از آن شگفتزده شدیم. پیش از چت جیپیتی تلاشهای زیادی برای ایجاد یک چتبات همهمنظوره انجام شده است و میدانستیم احتمال مقابله با مدل جدید ما وجود دارد. بااینوجود، بتای خصوصیمان به ما این اطمینان را داد که مردم میتوانند از آن لذت ببرند.
لیک: دوست دارم بهتر این موضوع را بفهمم که چه چیزی باعث این همه استقبال شد. صادقانه بگویم، ما متوجه نمیشویم و اطلاعی از دلیلش نداریم.
بخشی از تعجب تیم OpenAI به این دلیل است که اکثر فناوریهای درون ChatGT جدید نیستند. چت جیپیتی درحقیقت یک نسخه تنظیمشده GPT-3.5 است؛ خانوادهای از مدلهای زبانی بزرگ که OpenAI ماهها قبل از ChatGPT عرضه کرد. البته خود GPT-3.5 هم نسخه بهروزشده GPT-3 که در سال ۲۰۲۰ از راه رسید، محسوب میشود. شرکت OpenAI این مدلها را بهعنوان رابطهای برنامهنویسی کاربردی یا API در وبسایت خود در دسترس قرار میدهد تا توسعهدهندگان بتوانند مدلهای خود را به آن متصل کنند. OpenAI همچنین در ژانویه ۲۰۲۲ یک نسخه تنظیمشده دیگر GPT-3.5 بهنام InstructGPT را هم عرضه کرد. البته هیچکدام از آنها برای استفاده عمومی ارائه نشدند.
فدوس: ChatGPT با استفاده از همان مدل زبانی InstructGPT ساخت شد و ما برای تنظیم دقیق آن از روش یکسانی استفاده کردیم. ما به آن مقداری دادههای مکالمهمحور اضافه کردیم و کمی روند آموزش را هم تغییر دادیم. بنابراین ما نمیخواستیم به آن بهعنوان یک پیشرفت بنیادی نگاه شود. اما مشخص شد که دادههای مکالمهور تأثیر مثبت چشمگیری روی ChatGPT داشته است.
شولمن: قابلیتهای فنی خام، همانطور که توسط بنچمارکهای استاندارد ارزیابی میشوند، تفاوت خاصی بین مدلها ندارد، اما ChatGPT در دسترستر و قابلاستفادهتر است.
لیک: از یک نظر میتوانید ChatGPT را بهعنوان نسخهای از سیستمهای هوش مصنوعی ببینید که مدتی است در اختیار داریم. چت جیپیتی اساساً توانمندتر از مدلهای قبلی نیست. تقریباً از یک سال پیش از عرضه ChatGPT، مدلهای اولیه و پایه یکسان بهعنوان API موجود بودند. به بیان دیگر، ما ChatGPT را بیشتر با خواسته انسانها هماهنگ کردیم. این مدل میتواند با شما گفتوگو کند، بهراحتی از طریق یک رابط چت در دسترس است و سعی میکند مفید باشد. با پیشرفتی شگفتانگیز روبهرو هستیم که به نظرم مردم متوجه چنین موضوعی میشوند.
شولمن: کاربران با صحبت با آن میتوانند به چیزی که میخواهند، دست پیدا کنند.
ChatGPT با روشی بسیار مشابه با InstructGPT و تکنیک «یادگیری تقویتی از بازخورد انسان» (RLHF) آموزش داده شده است. ایده اصلی این است که یک مدل زبانی بزرگ، در اینجا GPT-3.5، با تمایل به گفتن هر چیزی که میخواهد را برای گفتن پاسخهای موردعلاقه انسانها، تنظیم کنید.
لیک: ما یک گروه بزرگ از مردم را داشتیم که درخواستها و پاسخهای ChatGPT را میخواندند و در ادامه میگفتند که کدام پاسخ بر دیگری ارجحیت دارد. تمام این دادهها درون یک دوره آموزشی ادغام میشد. بسیاری از این کارها دقیقاً همان رویکردی است که برای InstructGPT داشتیم. شما میخواهید این چتبات مفید، صادق و غیرسمی باشد. علاوه بر اینها، با مواردی روبهرو هستیم که برای تولید گفتوگو کاربرد دارند. مثلاً اگر درخواست کاربر چندان واضح نباشد، باید سؤالات بیشتری بپرسد. چتبات همچنین باید نشان دهد که یک سیستم هوش مصنوعی است. درحقیقت نباید هویتی را فرض کند که ندارد و نباید مدعی داشتن تواناییهایی شود که ندارد. همچنین اگر کاربر از او کاری خواست که نباید انجام دهد، یک پیام برای امتناع از آن ارائه کند.
آگاروال: آره، فکر میکنم این اتفاقی است که افتاد. لیستی از معیارهای مختلف مانند صداقت وجود داشت که نیروهای انسانی باید آنها را رتبهبندی میکردند. آنها همچنین شروع به ارجحدانستن مواردی کردند که بهنظرشان خوب بود؛ مانند تظاهرنکردن چتبات به چیزی که نیست.
از آنجایی که ChatGPT با استفاده از تکنیکهای قبلی OpenAI توسعه پیدا کرد، تیم در هنگام آمادهسازیاش برای انتشار عمومی، کار متفاوتی انجام ندادند. آنها احساس کردند که حد و مرزی که برای مدلهای قبلی تعیین شده بودند، برای چت جیپیتی هم کفایت میکند.
آگاروال: زمانی که برای عرضه آن آماده میشدیم، آن را بهعنوان یک ریسک کاملاً جدید در نظر نمیگرفتیم. مدل زبانی GPT-3.5 برای کاربران عرضه شده بود و میدانستیم که بهاندازه کافی ایمن است. همچنین از طریق آموزش ChatGPT در مورد ترجیحات انسانی، این مدل بهطور خودکار رفتار ردکردن برخی درخواست را یاد گرفت و بسیاری از درخواستها را رد کرد.
لیک: ما چند تیمسازی قرمز برای ChatGPT انجام دادیم و هر فردی در OpenAI برای دورزدن و شکستن آن تلاش کرد. البته ما خارج از شرکت هم گروههایی برای این کار داشتیم. علاوه بر این موارد، یک برنامه دسترسی اولیه هم برای کاربران قابلاعتماد خود ایجاد کردیم تا از آنها بازخورد بگیریم.
آگاروال: ما متوجه شدیم که ChatGPT خروجیهای ناخواسته خاصی ایجاد میکند، اما این خروجیها را GPT-3.5 هم تولید میکرد. بنابراین از نظر ریسک و از آنجایی که بهعنوان یک پیشنمایش تحقیقاتی در نظر گرفته شده بود، احساس خوبی داشتیم.
شولمن: نمیتوانید منتظر بمانید تا سیستمتان کامل و بینقص شود و بعد آن را منتشر کنید. ما برای چند ماه نسخههای قبلی آن را بهصورت بتا آزمایش کردیم و آزمایشکنندگان نسخههای بتا نظر مثبتی نسبت به محصول داشتند. بزرگترین نگرانی ما ارائه دادههای واقعی بود؛ چرا که مدلها دوست دارند برای خودشان دیتا بسازند. بااینحال InstructGPT و سایر مدلهای زبانی بزرگ همین حالا هم منتشر شدهاند و به همین خاطر فکر کردیم تا زمانی که ChatGPT بهخوبی مدلهای دیگر است، مشکلی وجود ندارد. قبل از انتشار با ارزیابیهای محدودمان مطمئن شدیم که ChatGPT نسبت به سایر مدلها ایمنتر است و به همین دلیل تصمیم به عرضه آن گرفتیم.
شرکت OpenAI از زمان عرضه مدل هوش مصنوعیاش، شاهد استقبالی است که مردم از آن کردهاند. درحقیقت برای اولینبار یک مدل زبانی بزرگ دست میلیونها نفر رسیده که میخواهند محدودیتهایش را آزمایش و نقصهایش را پیدا کنند. سازندگان تلاش کردند برای جلوگیری از بروز مشکلات بزرگ، بدترین سناریوهای ممکن را امتحان و از آنها برای آموزش ChatGPT استفاده کنند.
آگاروال: ما مراحل پیش روی زیادی داریم. قطعاً فکر میکنم وایرالشدن ChatGPT باعث شد که بسیاری از مسائلی که میدانستیم بحرانی میشوند را دراسرعوقت حل کنیم. البته ما میدانیم که این مدل هنوز سوگیری دارد. اگرچه ChatGPT در رد درخواستهای نامناسب عملکرد خوبی دارد، اما بازهم میتوان محدودیتهای آن را دور زد.
فدوس: دیدن برنامههای متنوع و خلاقانه کاربران (برای استفاده از این چتبات) بسیار هیجانانگیز است، اما ما همیشه روی حوزههایی تمرکز میکنیم که باید بهبود دهیم. فکر میکنیم از طریق یک فرایند تکراری شامل اجرا، دریافت بازخورد و اصلاح میتوانیم هماهنگترین و توانمندترین فناوری را بسازیم. همانطور که تکنولوژی ما تکامل مییابد، بدونشک مسائل جدیدی هم ظهور میکنند.
آگاروال: در هفتههای اولیه پس از انتشار، ما به برخی از بدترین نمونههایی که مردم پیدا کرده بودند، نگاه کردیم. هر کدام از آنها را ارزیابی و درباره چگونگی رفع آنها صحبت کردیم.
لیک: برخی مواقع مشکلات در توییتر وایرال میشوند، اما افرادی را هم داریم که میتوانیم بیسروصدا با آنها ارتباط برقرار کنیم.
آگاروال: بسیاری از چیزهایی که پیدا کردیم، جیلبریک بودند و قطعاً مشکلاتی بودند که باید برطرف میکردیم. اگرچه کاربران بهطور مداوم بهدنبال روشهای پیچیدهای برای گرفتن پاسخهای نامناسب از ChatGPT بودند، اما این موضوع نه ما را چندان شگفتزده کرد و نه از آن چشمپوشی کرده بودیم. بااینحال، هنوز ما بهطور فعالانه روی این موارد کار میکنیم. زمانی که با مشکلی روبهرو شویم، آن را به دادههای تمرینیمان اضافه میکنیم. تمام دادههای را که میبینیم، به یک مدل برای آینده خورانده میشوند.
لیک: هر بار که مدل بهتری داریم، میخواهیم آن را به دنیای بیرون نشان دهیم و تستش کنیم. ما خیلی خوشبین هستیم که برخی آزمایشهای خصمانه هدفمند بتوانند وضعیت مربوط به جیلبریکها را بهطور چشمگیری بهبود دهند. نمیدانیم این مشکلات بهطور کامل رفع میشوند یا خیر، اما فکر میکنیم که دورزدن محدودیتها و جیلبریک را میتوانیم بسیار دشوارتر کنیم. بازهم باید به این نکته اشاره کنم که قبل از انتشار هم میدانستیم که امکان جیلبریک وجود دارد. فکر میکنم پیشبینی مشکلات امنیتی واقعی این سیستمها پس از ارائه بسیار سخت است. بنابراین تأکید زیادی روی نظارت بر رفتار مردم در هنگام استفاده از ChatGPT داشتیم. آنها را زیر نظر گرفتیم و نسبت به آنها واکنش نشان دادیم. این موضوع بهمعنای آن نیست که نسبت به مشکلات پیشبینیشده بیتفاوت باشیم، اما پیشبینی مشکلات در دنیای واقعی بسیار سخت است.
در ژانویه ۲۰۲۳، مایکروسافت از بینگچت رونمایی کرد؛ یک چتبات جستجو که بسیاری فکر میکردند مبتی بر مدل زبانی GPT-4 است، اما این چتبات براساس پیشرفتهای ChatGPT و GPT-3.5 توسعه یافته است. استفاده از چتباتها توسط غولهای فناوری با سرمایه چند میلیارد دلاری که باید از آن محافظت کنند، چالشهای جدیدی را برای سازندگان این مدلها ایجاد میکند.
لیک: خطرات و نگرانیها مسلماً درحالحاضر بسیار بیشتر از مثلاً ۶ ماه پیش هستند، اما هنوز نسبت به چیزی که شاید سال آینده باشند، کمتر است. یکی از موارد مهم درباره این مدلها، موارد استفاده از آنهاست. مثلاً برای گوگل و مایکروسافت که میخواهند از مدلها بهعنوان موتور جستجو استفاده کنند، حتی اگر با یک جواب غیرواقعی روبهرو شویم، مشکل بزرگی بهوجود میآید. رفتار موردنیاز برای یک مدل زبان بزرگ بهعنوان یک موتور جستجو، بسیار پیچیدهتر از یک چتبات مخصوص سرگرمی است. ما باید بفهمیم که چگونه روی مرز بین این میزان کاربر مختلف حرکت کنیم و چیزی بسازیم که در طیف وسیعی از کاربردها برای مردم مفید باشد. این موضوع فشار بیشتری به ما وارد میکند؛ چون حالا میدانیم که درحال ساخت مدلهایی هستیم که به محصول تجاری تبدیل میشوند. ChatGPT یک محصول است و حالا API آن را داریم. ما درحال ساخت این فناوری همهکاره هستیم و باید مطمئن شویم که در همه زمینهها بهخوبی کار میکند. این موضوع یکی از چالشهای کلیدی است که درحالحاضر با آن روبهرو هستیم.
شولمن: من میزانی را که مردم در مورد سیاستهای ChatGPT تحقیق میکنند و به آن اهمیت میدهند، دستکم گرفته بودم. ما میتوانستیم هنگام جمعآوری دادهها برای آموزش مدلمان تصمیمات بهتری بگیریم که این کار باعث کاهش مشکلاتمان میشد. اما حالا روی این موضوع کار میکنیم.
لیک: از دیدگاه ما، ChatGPT شکستهای زیادی داشته است و حال باید کارهای زیادی انجام دهیم. بهنظر نمیرسد که مشکلات را برطرف کردهایم. ما باید با خودمان و دیگران درباره محدودیتهای فناوری کاملاً شفاف باشیم. منظورم این است مدلهای زبانی مدتی است که وجود دارند، اما هنوز در اول راه قرار داریم. ما از تمام مشکلات آنها خبر داریم و فکر میکنیم باید خیلی پیشرو باشیم، انتظارات را مدیریت کرده و همچنین این موضوع را روشن کنیم که با محصول نهایی روبهرو نیستیم.