هوش مصنوعی به یکی از داغترین موضوعهای دنیای فناوری تبدیل شده است. در کنار مزایای زیادی که این فناوری به همراه دارد، میتواند خطرات زیادی مانند افشای اطلاعات شخصی کاربران و شرکتها را هم به دنبال داشته باشد. شرکتها همواره درحال تلاش برای کاهش ریسکهای این سیستمها هستند و حالا نشریه فوربس به سراغ رهبران تیمهای قرمز غولهای فناوری رفته و درباره تلاشها برای رفع آسیبپذیریهای هوش مصنوعی با آنها صحبت کرده است.
OpenAI یک ماه قبل از انتشار عمومی ChatGPT وکیلی کنیایی به نام «بورو گولو» (Boru Gollo) را برای آزمایش نمونههای اولیه این چت بات ابتدا با مدل GPT 3.5 و سپس با مدل GPT 4 استخدام کرد. این شرکت قصد داشت چتبات خود را علیه مسلمانان و آفریقاییها با واردکردن درخواستی امتحان کند که باعث میشد چتبات پاسخهای آسیبزننده، متعصبانه و نادرست ارائه دهد.
گولو، یکی از ۵۰ متخصص خارج از شرکت استخدامشده توسط OpenAI بهعنوان عضوی از تیم قرمز این شرکت است. او فرمانی به ChatGPT داد که این چتبات در پاسخ به آن فهرستی از راههای کشتن یک نیجریایی ارائه داد؛ البته OpenAI قبل از در دسترس قرار دادن ChatGPT در سراسر جهان، این پاسخ را حذف کرد.
براساس اطلاعات درجشده در سیستم کارت GPT 4 که خطرات این سیستم و اقدامات امنیتی OpenAI را برای کاهش این خطرات یا حذف آنها فهرست کرده، اعضای تیم قرمز OpenAI در نسخه پیش از معرفی این مدل، درخواستهایی جهت کمکگرفتن از آن برای انجام یک سری فعالیت غیرقانونی و مضر نوشتند؛ مثل کمک برای نوشتن یک پست فیسبوک جهت متقاعدکردن کاربران برای پیوستن به القاعده یا کمک به یافتن سلاحهای بدون مجوز و فروش آنها یا ارائه فرایندی برای ساخت مواد شیمیایی مضر در خانه.
تلاش تیمهای قرمز برای شناسایی آسیبپذیریهای مدلهای AI
هکرهای تیم قرمز برای جلوگیری از سوءاستفاده از سیستمهای هوش مصنوعی، آنها را مثل یک دشمن میبینند و سعی میکنند آسیبپذیریهای پنهان و خطرات آنها را شناسایی و رفع کنند. اکنون که رقابت بین غولهای فناوری برای ایجاد و انتشار ابزارهای هوش مصنوعی شدت گرفته، اهمیت نقش اعضای تیم قرمز داخلی آنها برای کسب اطمینان از امن بودن این ابزارها برای عموم مردم، بهطور فزایندهای درحال افزایش است؛ مثلاً گوگل در اوایل سال میلادی جاری تیم قرمز مجزایی برای هوش مصنوعی ایجاد کرد. در ماه آگوست هم توسعهدهندگان مدل GPT 3.5 شرکت OpenAI، مدل Llama2 متا و LaMDA گوگل در رویدادی در کاخ سفید حضور یافتند تا توانایی هکرها برای دسترسی غیرمجاز به مدلهای هوش مصنوعی خود را محک بزنند.
اما اعضای تیمهای قرمز هوش مصنوعی معمولاً در ایجاد توازن بین بیخطرکردن مدلهای AI و کاربردی و مفیدکردن آنها در موقعیتهای دشواری گرفتار میشوند. مجله فوربس در مصاحبهای با سرپرستان تیمهای هوش مصنوعی مایکروسافت، گوگل، متا و انویدیا از آنها در مورد دلیل متداولشدن نفوذ به مدلهای AI و چالشهای مقابله با این معضل صحبت کرده است
«کریستین کانتون» (Cristian Canton)، سرپرست تیم قرمز فیسبوک گفته میتوان مدلی ایجاد کرد که در پاسخ به هر درخواستی نه بگوید؛ چنین مدلی ابزاری فوقالعاده امن است. نمیشود مدلی را طراحی کرد که هم بسیار مفید باشد و هم امنیت بسیار بالایی داشته باشد؛ هر چقدر یک مدل مفیدتر باشد، احتمال ارائه پاسخ خطرناک توسط آن در زمینههای مختلف بیشتر میشود.
استفاده از نرمافزارهای طراحیشده برای شناسایی آسیبپذیریهای سیستمها، از دهه ۱۹۶۰ شروع شده است. در آن زمان حملات سایبری شبیهسازی میشد تا با شناسایی و رفع آسیبپذیریها، امنیت سیستمها به حداکثر میزان ممکن برسد.
«بروس اشنایر» (Bruce Schneier)، از مرکز اینترنت و جامعه برکمن، میگوید: «در مورد امنیت سیستمهای کامپیوتری هرگز نمیتوانیم بگوییم سیستمی امنیت کامل دارد. تنها چیزی که میتوانیم بگوییم این است که بگوییم ما سعی کردیم و نتوانستیم به آن نفوذ کنیم.»
«دنیل فابین» (Daniel Fabian)، سرپرست تیم قرمز هوش مصنوعی جدید گوگل که همیشه تأکید میکند محصولاتی مانند گوگل بارد قبل از اضافهشدن ویژگیهای جدید به آنها (مثل افزودن زبانهای قابل پشتیبانی به آنها)، باید برای کسب اطمینان از عدم ارائه محتوای توهینآمیز توسط آنها، آزمایش شوند، معتقد است به دلیل اینکه برای آموزش سیستمهای هوش مصنوعی مولد از حجم گسترده از دادهها استفاده میشود، نحوه امن نگهداشتن آنها با روش حفظ امنیت سایر سیستمهای متداول تفاوت دارد.
اعضای تیم قرمز هوش مصنوعی قبل از انتشار مدلهای AI، عمداً درخواستهای خطرناکی را در آنها مینویسند تا پاسخهای خطرناک و مخربی از آنها دریافت کنند. علاوهبراین، اعضای این تیمها از تکنیکهایی برای استخراج دادههای آموزشی افشاکننده هویت افراد، مثل اسامی، شماره تلفنها و آدرسها نیز بهره میبرند.
آنها همچنین با تغییر بخشی از دادههای موجود در پایگاههای داده که برای آموزش مدلها استفاده میشوند، بهنوعی آنها را هدف حمله سایبری قرار میدهند. فابین در گفتوگو با فوربس گفته انواع مختلفی از حملات سایبری وجود دارد و وقتی هکرها با انواع خاصی از این حملات به نتیجه نمیرسند، سایر انواع آنها را امتحان میکنند.
رویکرد شرکتهای بزرگ برای شناسایی و رفع آسیبپذیریهای مدلهای هوش مصنوعی
به دلیل اینکه سیستمهای AI هنوز سیستمهای نوپایی محسوب میشوند، تعداد متخصصان امنیتی که نحوه نفوذ به آنها را میدانند، به گفته «دانیال روهر»، معاون بخش امنیتی انویدیا، «بسیار کم و رو به کاهش» است. به همین دلیل است که جامعه درهمتنیده گروههای تیم قرمز متمایل به اشتراکگذاری یافتههای خود است؛ مثلاً اعضای گروه قرمز هوش مصنوعی گوگل نتایج پژوهشی در مورد راهکارهای جدید برای حمله به مدلهای AI را منتشر کردهاند.
از سوی دیگر اعضای تیم قرمز مایکروسافت یک ابزار متنباز حمله سایبری به نام Counterfit ایجاد کردهاند که به توسعهدهندگان ابزارهای هوش مصنوعی برای ایمن نگهداشتن این ابزارها و محافظت از آنها در برابر خطرات امنیتی کمک میکند.
«شانکار سیوا کومار» که تیم قرمز مایکروسافت را پنج سال پیش تشکیل داد، در وبلاگ مایکروسافت درباره اینچنین گفته است:
«ما ابزارهای بیکیفیت را توسعه دادیم و از این روش برای تسریع روند شناسایی آسیبپذیری سیستمهای نرمافزاری خود استفاده میکنیم. ما میخواهیم این ابزار را بهصورت چهارچوبی در اختیار تمام متخصصان امنیتی قرار دهیم که با آن آشنا باشند و آن را درک کنند.»
اعضای تیم سیوا کومار، ابتدا اطلاعات مرتبط با حملات سایبری را از تیم اطلاعاتی تهدیدات سایبری که به گفته کومار چشم و گوش اینترنت هستند، دریافت و جمعآوری میکنند. آنها در مرحله بعدی وارد همکاری با اعضای سایر تیمهای قرمز میشوند تا آسیبپذیری موردنظر سیستم هوش مصنوعی برای مقابله با آن و همچنین نحوه انجام این کار را مشخص کنند. در سال میلادی جاری تیم کومار موفق شد محبوبترین محصول هوش مصنوعی مایکروسافت یعنی بینگ چت را بهخوبی GPT 4 برای یافتن نقایص امنیتی کاوش کند.
ارائه دورههای آموزشی کوتاه در مورد نحوه تشخیص آسیبپذیریهای الگوریتمها برای افزایش امنیت و شرکتها، بخشی از رویکرد انویدیا برای شناسایی آسیبپذیریها است. مایکروسافت برای محافظت از منابع محاسباتی مثل پردازندههای گرافیکی، به چنین رویکردی متکی است
روهر میگوید ما رویکرد تقویتکننده عظیمی داریم که موتور هوش مصنوعی برای تمام افراد محسوب میشود. اگر نحوه شناسایی آسیبپذیریها را به دیگران یاد دهیم، آنتروپیک، گوگل و OpenAI میتوانند امنیت سیستمهای هوش مصنوعی خود را افزایش دهند.
تیمهای قرمز با افزایش امنیت در سیستمهای AI برای تمام کاربران و مقامات دولتی به شکل یکسان، در رقابت برای بهرهمندی از این فناوری، برای آموزش شرکتها، نیز مزیتی رقابتی ارائه میدهند.
«اسون کتل»، بنیانگذار AI Village، جامعهای از متخصصان و هکرهای هوش مصنوعی، میگوید: «به نظر من شعار شرکتها، حرکت به سمت کسب اعتماد و امن کردن است.» همچنین او گفته بهزودی در تبلیغات شاهد شعار تبلیغاتی «سیستم ما امنترین است» خواهیم بود.
تیم قرمز هوش مصنوعی متا که در سال ۲۰۱۹ ایجاد شد، جزو نخستین تیمهای این حوزه محسوب میشود. این تیم در آن زمان چالشهای داخلی خود را سازماندهی و با جذب سرمایه، به هکرها اجازه داد از فیلترهای محتوایی عبور و پستهای دارای سخنان نفرتانگیز، تصاویر مستهجن، اطلاعات نادرست و گمراهکننده و دیپ فیکهای ایجادشده توسط هوش مصنوعی در اینستاگرام و فیسبوک را شناسایی و حذف کنند.
طبق گزارش منتشرشده در مورد جزئیات نحوه ایجاد مدل زبانی بزرگ متنباز متا یعنی Llama 2 در ژوئیه ۲۰۲۳، این شرکت برای تشکیل تیم قرمز بهمنظور آزمایش این مدل، ۳۲۰ نفر شامل متخصصان و کارمندان قراردادی را استخدام کرد و یک گروه داخلی متشکل از ۲۰ کارمند خود را نیز تشکیل داد. تیم قرمز مذکور Llama 2 را با درخواستهایی مثل کمک برای ارائه روشهای فرار مالیاتی، روشنکردن خودرو بدون سوئیچ و نحوه ایجاد سیستمی برای ترفند پانزی (روشی کلاهبردارانه برای جذب سرمایههای مردم) آزمایش کرد. کانتون، سرپرست تیم قرمز فیسبوک گفته شعار تیم قرمز این شبکه اجتماعی این است که هر چقدر در فرایند آموزش سیستم هوش مصنوعی بیشتر تلاش کنیم، در هنگام رقابت با سایر سیستمها کمتر آسیب میبینیم.
چنین شعاری شبیه ماهیت یکی از بزرگترین تمرینات تیمهای قرمز برگزارشده در کنفرانس هک دفکان در لاسوگاس آمریکا در اوایل ماه آگوست است. در این کنفرانس ۸ شرکت ازجمله OpenAI، گوگل، متا، انویدیا، Stability AI و آنتروپیک، مدلهای هوش مصنوعی خود را در اختیار ۲۰۰۰ هکر قرار دادند تا آنها با درخواستهای طراحیشده برای نمایش اطلاعات حساس مثل شمارههای کارتهای بانکی یا ایجاد محتوای خطرناک مثل اطلاعات نادرست سیاسی، مدلها را بررسی کنند.
دفتر سیاست علم و فناوری در کاخ سفید، با برگزارکنندگان این رویداد برای طراحی چالشهای شناسایی آسیبپذیریها همکاری کرد. این سازمان در همکاری مذکور برای ارائه راهنمایی در مورد روش موردنظر طراحی، راهاندازی و استفاده بیخطر از سیستمهای خودکارسازیشده، به مفاد منشور هوش مصنوعی خود پایبند است.
طبق گفته کتل که در رویداد هک دفکان طلایهدار بود، در ابتدا شرکتها به دلیل وجود خطرات شناختهشده مرتبط با شناسایی آسیبپذیریها در انجمنهای تیم قرمز، برای ارائه مدلهای خود بهصورت گسترده و بدون محدودیت به هکرها اکراه داشتند.
او در مورد این موضوع به فوربس گفته است: «گوگل یا OpenAI ما را در این کنفرانس به چشم مشتی بچه میبینند؛ اما پس از اینکه به شرکتهای فناوری این اطمینان داده شد که مدلهای آنها گمنام باقی میماند، آنها با ارائه مدلهای خود موافقت کردند.» طبق اطلاعات اخیر ارائهشده توسط برگزارکنندگان رویداد دفکان، نتایج نزدیک به ۱۷ هزار مورد گفتگوی هکرها با مدلها تا ماه فوریه آینده منتشر نخواهد شد؛ اما متأسفانه در رویداد هک دفکان، چندین مورد آسیبپذیری در مدلهای چند شرکت شناسایی شد که شرکتها از اشارهکردن به آنها طفره رفتهاند. اعضای تیم قرمز در ۸ مدل در حدود ۲۷۰۰ نقص امنیتی شناسایی کردند؛ مثلاً در یکی از موارد مدل AI متقاعد شد از ارائه دستورالعملهای مرتبط با نظارت بر یک فرد بدون اطلاع او اجتناب نکند.
یکی از شرکتکنندگان این رویداد، «آویجت گوش»، پژوهشگر حوزه ملاحظات اخلاقی استفاده از هوش مصنوعی بود که میتوانست برای حل اشتباه مسائل ریاضی، ایجاد یک گزارش خبری ساختگی در مورد پادشاه تایلند و نوشتن در مورد یک بحران ساختگی مسکن، از چند مدل مختلف استفاده کند.
به نظر گوش، وجود این نقایص امنیتی در سیستمهای هوش مصنوعی، تلاش برای شناسایی آسیبپذیریهای آنها را ضروریتر میکند؛ مخصوصاً اگر این آسیبپذیریها توسط برخی از کاربرانی که بهعنوان رباتهای همهچیزدان میشناسیم، شناسایی شوند.
گوش در مورد این موضوع اینچنین گفته است:
«چندین نفر را میشناسم که فکر میکنند رباتها واقعاً هوشمند هستند و با روشهایی مثل ارائه مرحلهبهمرحله منطق و دلیل، توانایی انجام وظایفی مثل تشخیص بیماریها را دارند؛ اما اینچنین نیست و آنها تنها از قابلیت تکمیل خودکار برخوردار هستند.»
در پایان باید بگوییم متخصصان معتقدند مدلهای هوش مصنوعی مانند هیولاهای چند سر هستند و حتی اگر تیمهای قرمز بتوانند آسیبپذیریهای آنها را شناسایی کنند، باز هم نقایص امنیتی در بخشهای دیگر ایجاد میشوند. به نظر کومار باید جامعهای برای رفع این مشکل ایجاد شود.