یک تحقیق جدید نشان میدهد که تشخیص صدای واقعی انسان از کلونهای ساختهشده با هوش مصنوعی (دیپفیک) دیگر ممکن نیست.
تا همین اواخر تصور ما از صدای هوش مصنوعی صدایی رباتیک و بیروح مانند سیری یا الکسا بود. اما یک تحقیق جدید نشان میدهد که این دوران به پایان رسیده است: شنونده عادی دیگر قادر به تشخیص تفاوت بین صدای واقعی یک انسان و نسخه صوتی ساختهشده با هوش مصنوعی (دیپفیک) نیست.
به گزارش لایوساینس، محققان دانشگاه کوئین مری لندن در تحقیق حاضر از شرکتکنندگان خواستند تا به ۸۰ نمونه صوتی گوش دهند و بگویند که کدامیک واقعی و کدامیک ساخته هوش مصنوعی است. نتایج نگرانکننده بود.
زمانی که هوش مصنوعی صدایی را از ابتدا میساخت، شرکتکنندگان در اکثر موارد (حدود ۵۹ درصد) میتوانستند آن را به درستی تشخیص دهند. اما زمانی که هوش مصنوعی صدای یک انسان واقعی را کلون میکرد، نتایج کاملاً متفاوت بود. در این حالت، شرکتکنندگان در ۵۸ درصد موارد، صدای جعلی را بهعنوان صدای واقعی انسان اشتباه میگرفتند. و وضعیت کسانی که موفق به تشخیص صدای هوش مصنوعی میشدند نیز از نظر آماری آنچنان متفاوت نبود که چیزی فراتر از صرف حدسزدن را نشان دهد.
عدم تشخیص صدای هوش مصنوعی از صدای انسان
اینکه هوش مصنوعی میتواند به راحتی صدای انسان را تقلید کند، پیامدهای بسیار خطرناکی برای امنیت، اخلاق و کپیرایت دارد. این فناوری میتواند به ابزاری قدرتمند در دست کلاهبرداران تبدیل شود. ما همین حالا نیز شاهد نمونههای واقعی از این سوءاستفادهها هستیم.
خلافکاران میتوانند با شبیهسازی صدای شما پروتکلهای احراز هویت صوتی در بانکها را دور بزنند یا با اعضای خانوادهتان تماس بگیرند و با صحنهسازی یک موقعیت اضطراری از آنها پول اخاذی کنند. (مانند موردی که در آن، زنی به نام «شارون برایتول» با شنیدن صدای گریه دخترش که با هوش مصنوعی ساخته شده بود، ۱۵ هزار دلار از دست داد).
همچنین میتوان از این فناوری برای ساخت مصاحبهها یا بیانیههای جعلی از سیاستمداران و افراد مشهور استفاده کرد تا آنها را بیاعتبار یا ناآرامی اجتماعی ایجاد کرد (مانند موردی که در آن، از کلون صوتی نخستوزیر کوئینزلند برای تبلیغ یک کلاهبرداری بیتکوین استفاده شد).
شاید نگرانکنندهترین بخش این تحقیق، سادگی و در دسترس بودن این فناوری باشد. محققان تأکید میکنند که کلونهای صوتی استفادهشده در این مطالعه، حتی چندان پیچیده هم نبودند. آنها این صداها را با استفاده از نرمافزارهای تجاری در دسترس، با کمترین تخصص فنی، با استفاده از تنها چند دقیقه فایل صوتی از صدای یک فرد و تقریباً بدون هیچ هزینهای ساخته بودند. این یعنی این ابزار قدرتمند اکنون در دسترس هر کسی قرار دارد.
به گزارش دیجیاتو، یافتههای این تحقیق در ژورنال PLoS One منتشر شده است.
A new study reveals that distinguishing between real human voices and AI-generated clones (deepfakes) is no longer feasible. Previously, AI voices were perceived as robotic; however, participants listening to 80 audio samples struggled to identify which were real. Remarkably, when AI cloned human voices, participants incorrectly identified the fake as real 58% of the time. This inability poses serious security, ethical, and copyright concerns, enabling criminals to exploit this technology for identity theft or fraudulent activities. The study underscores the accessibility and simplicity of these AI cloning tools, making them available to nearly anyone.