آیا میتوان به هوش مصنوعی یاد داد مثل یک ایرانی «تعارف» کند؟ محققان ایرانی دانشگاه اموری آمریکا با «بنچمارک تعارف» این موضوع را آزمایش کردند.
ما ایرانیها با چنین صحنهای غریبه نیستیم: سوار تاکسی میشویم، دست میبریم که کرایه را بپردازیم، راننده با لبخند میگوید: «قابل نداره، مهمان من باشید.» میدانیم که این «نه» در واقع یعنی «بله»؛ اگر تشکر کنیم و پول را توی جیبمان بگذاریم، بهنوعی بیادبی کردهایم. پس تشکر میکنیم و دوباره پول را به سمت راننده میگیریم تا بالاخره او کرایه را قبول کند.
این بازی ظریفِ امتناع و اصرار یا «تعارف»، یکی از ریشهدارترین آداب اجتماعی ما است که در بسیاری از لایههای زندگی روزمرهمان دیده میشود.
حالا تصور کنید هوش مصنوعی بخواهد وارد این میدان شود. پژوهشی تازه با عنوان «ما مؤدبانه اصرار میکنیم: مدل زبان بزرگ شما باید هنر ایرانی تعارف را بیاموزد» نشان میدهد که حتی پیشرفتهترین مدلهای زبانی، از GPT-4o و Claude 3.5 گرفته تا Llama 3، DeepSeek V3 و حتی نسخهی فارسیمحور «درنا»، در فهم این ظرافت فرهنگی بهشدت ناکام میمانند. دقت آنها در مدیریت موقعیتهای تعارف بین ۳۴ تا ۴۲ درصد است، درحالیکه فارسیزبانان بومی در ۸۲ درصد مواقع به تعارفات، درست پاسخ میدهند.
مدلهای پیشرفته هوش مصنوعی، از GPT-4o گرفته تا Claude 3.5، در یک آزمون ساده اما حیاتی شکست خوردهاند: درک تعارف ایرانی. این رباتها در موقعیتهایی که «نه» ممکن است به معنای «بله» باشد، با دقتی کمتر از نصف یک انسان عمل میکنند و ادب ظاهری را با درک فرهنگی اشتباه میگیرند. جالبتر آنکه، این مدلها حتی سوگیریهای جنسیتی عجیبی از خود نشان داده و در برابر زنان رفتاری متفاوت بروز میدهند. اما آیا میتوان به یک ماشین یاد داد که پیچیدگیهای این رقص کلامی ظریف را بیاموزد و مانند یک ایرانی رفتار کند؟ پاسخ ممکن است شما را شگفتزده کند.
این مطالعه با همکاری پژوهشگران دانشگاه اموری و چند مؤسسه دیگر، نخستین معیار سنجش توانایی هوش مصنوعی در بازآفرینی این آیین اجتماعی را معرفی میکند: «بنچمارک تعارف». یافتهها نشان میدهد که مدلهای زبانی بهطور پیشفرض به سمت صراحت غربی تمایل دارند و از نشانههای فرهنگیای که تعاملات میلیونها فارسیزبان را شکل میدهد، غافل میمانند.
پژوهشگران هشدار میدهند: «اشتباهات فرهنگی در موقعیتهای حساس میتواند مذاکرات را بههم بزند، روابط را خدشهدار و کلیشهها را تقویت کند.» برای هوش مصنوعی که روزبهروز بیشتر در عرصههای جهانی بهکار گرفته میشود، این نابینایی فرهنگی خطری جدی بهشمار میرود؛ خطری که شاید در غرب چندان به چشم نیاید، اما ما هر روز با آن مواجهیم.
پژوهشگران پس از مستندسازی خطاها، گام بعدی را برداشتند: آیا میتوان به هوش مصنوعی یاد داد که مثل یک ایرانی تعارف کند؟ برای پاسخ به این پرسش، چند روش آموزشی مختلف روی مدلها آزمایش شد.
نتایج نشاندهنده بهبودهای چشمگیر بود. تکنیکی به نام «بهینهسازی ترجیحات مستقیم» (Direct Preference Optimization یا DPO) که در آن با نشاندادن جفتهایی از پاسخهای خوب و بد، به مدل یاد داده میشود که کدام نوع پاسخ را ترجیح دهد، عملکرد Llama 3 را در سناریوهای تعارف دوبرابر بهتر کرد و دقت آن را از ۳۷٫۲ درصد به ۷۹٫۵ درصد رساند. این رقم به سطح عملکرد فارسیزبانان بومی (۸۱٫۸درصد) بسیار نزدیک است.
پژوهش همچنین به ملاحظات جدی اخلاقی نیز اشاره میکند. آموزش فرهنگیِ هوش مصنوعی اگر بهدرستی انجام نشود، ممکن است به بازنمایی نادرست فرهنگها یا حتی تقویت کلیشههای زیانبار بینجامد.
علاوهبراین، نگرانیهایی دربارهی حریم خصوصی کاربران، استقرار مسئولانهی مدلها، و خطر استفادهی دوگانه از تکنیکهای انطباق فرهنگی وجود دارد؛ جایی که ابزارهای طراحیشده برای همدلی و درک متقابل، میتوانند در دست نهادهای دیگر به ابزاری برای فریب یا دستکاری تبدیل شوند.
Researchers at Emory University have explored whether artificial intelligence can learn the art of "ta'arof," a nuanced Iranian social custom of polite insistence. Their study revealed that sophisticated AI models like GPT-4o and Claude 3.5 struggle with this cultural nuance, achieving only 34-42% accuracy compared to native Persian speakers, who respond correctly 82% of the time. Using a method called Direct Preference Optimization, researchers significantly improved Llama 3's performance on ta'arof scenarios from 37.2% to 79.5%. However, ethical concerns regarding cultural representation and the potential misuse of AI in sensitive situations remain.