صداهای جعلی، واقعی می شوند
“کلونهای صدا میتوانند به اندازه صدای انسان واقعی به نظر برسند،” این را یک تحقیق جدید میگوید هوش مصنوعی مولد ساخت صداهای مصنوعی را آسان کرده است که میتواند گوش انسان را فریب دهد.
داستان برندهی جایزهی «من دهان ندارم و باید فریاد بزنم» اثر هارلن الیسون، نویسندهی علمی-تخیلی آمریکایی، دربارهی یک ابررایانهی خبیث است که نسل بشر را نابود میکند. بحران دیپفیک صدا هنوز به آن سطح نرسیده است، اما عنوان آن به طور گستردهای یادآور هجوم صداهای مصنوعی است که جهان را فرا گرفته است. پلتفرم پخش صوتی اسپاتیفای تنها در سال گذشته، ۷۵ میلیون قطعهی اسپم را از کتابخانهی خود حذف کرده است.
با آسانتر شدن استفاده از هوش مصنوعی برای تولید موسیقی و صدا، تشخیص دیپفیکها و صداهای مصنوعی نیز دشوارتر میشود. در واقع، بر اساس تحقیقات جدید دانشگاه کوئین مری لندن، یک شنوندهی معمولی دیگر نمیتواند بین صداهای دیپفیک و صداهای انسانهای واقعی تمایز قائل شود.
در چکیدهی این تحقیق آمده است: «اخیراً، اثر جالبی در چهرههای تولیدشده توسط هوش مصنوعی گزارش شده است، به طوری که این تصاویر چهره، انسانیتر از تصاویر انسانهای واقعی درک میشوند.» تیم تحقیقاتی تصمیم گرفت آزمایش کند که آیا یک «اثر فراواقعگرایی» مشابه نیز برای صداهای تولیدشده توسط هوش مصنوعی وجود دارد یا خیر.
آنها این کار را با مقایسهی صداهای انسانهای واقعی با دو نوع مختلف از صداهای مصنوعی تولیدشده با هوش مصنوعی انجام دادند: صداهای شبیهسازیشده بر اساس ضبطهای واقعی و صداهای سنتزشده از مدل بزرگ صوتی «Voice Design» شرکت ElevenLabs، بدون همتای انسانی خاص. (محققان در مورد دومی خاطرنشان میکنند: «صداهای عمومی تولیدشده توسط هوش مصنوعی با این سبک خاص، در حال حاضر برای تولید هویتهای آوازی جدید و به عنوان مثال، به عنوان صداگذاری برای تبلیغات و ویدیوهای محتوای آنلاین یا برای روایت کتابهای صوتی یا پادکستها استفاده میشوند.»)
از شرکتکنندگان خواسته شد که کدام صداها واقعیتر، غالبتر و قابلاعتمادتر به نظر میرسند.
نتیجهگیری این مطالعه این است که «صداهای شبیهسازیشده میتوانند به اندازهی صداهای انسانی واقعی به نظر برسند و تشخیص آنها را برای شنوندگان دشوار کند»
هر دو نوع صدای تولید شده توسط هوش مصنوعی، غالبتر از صدای انسان ارزیابی شدند و برخی از صداهای تولید شده توسط هوش مصنوعی، قابل اعتمادتر نیز تلقی میشدند. با این حال، نتایج از فرضیه فراواقعگرایی (hyperrealism) پشتیبانی نکرد و این موضوع، حاکی از تفاوت احتمالی در درک چهرههای جعلی و صداهای جعلی است.
هوش مصنوعیِ صدا، همهجا حاضر در برج بابل دیپفیک
در یک خبرنامه، به نقل از دکتر نادین لاوان، مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن که یکی از سرپرستان این مطالعه بود، آمده است: «صداهای تولید شده توسط هوش مصنوعی، اکنون در اطراف ما هستند. همه ما با الکسا یا سیری صحبت کردهایم یا تماسهایمان توسط سیستمهای خدمات مشتری خودکار پاسخ داده شده است. این موارد کاملاً شبیه صداهای واقعی انسان نیستند، اما فقط مسئله زمان بود که فناوری هوش مصنوعی شروع به تولید گفتار طبیعی و شبیه به صدای انسان کند. مطالعه ما نشان میدهد که این زمان فرا رسیده است و ما به فوریت نیاز داریم تا درک کنیم که مردم چگونه این صداهای واقعگرایانه را درک میکنند». بخشی از این فوریت، ناشی از انفجار تقلب صوتی دیپفیک است که «ویشینگ» (vishing) نیز نامیده میشود. تحقیقات جدیدی از Group IB به بررسی «کالبدشکافی حمله فیشینگ صوتی دیپفیک» میپردازد.
در این گزارش آمده است: «این تحقیق با تکیه بر تجربه Group-IB در حوادث دنیای واقعی و تلهمتری اطلاعات تهدید، بخشهایی را که بیشتر در معرض خطر هستند برجسته میکند: امور مالی، خدمات اجرایی و میزهای کمکرسانی کار از راه دور.» این گزارش خاطر نشان میکند که محققان از تکنیکهای تشخیص مانند اثر انگشت آکوستیک و احراز هویت چند وجهی برای ارائه یک «استراتژی دفاعی لایهای که تجزیه و تحلیل ناهنجاری مبتنی بر هوش مصنوعی را با آموزش آگاهی بخشی قوی به کارکنان ترکیب میکند» به متخصصان امنیت سایبری استفاده کردند.
تحقیقات نشان میدهد که پیشبینی میشود خسارات ناشی از کلاهبرداری با استفاده از دیپفیک تا سال ۲۰۲۷ به ۴۰ میلیارد دلار برسد. منطقه آسیا-اقیانوسیه در حال حاضر کانون اصلی این موضوع است و تلاشهای کلاهبرداری مرتبط با دیپفیک در این منطقه در سال ۲۰۲۴ با افزایش ۱۹۴ درصدی مواجه شده است. بیش از ۱۰ درصد از موسسات مالی مورد بررسی، حملات ویشینگ دیپفیک را تجربه کردهاند که خساراتی بیش از ۱ میلیون دلار به بار آورده است؛ متوسط زیان در هر مورد تقریباً ۶۰۰,۰۰۰ دلار است. و به دلیل پولشویی سریع، وجوه دزدیده شده تقریباً هرگز بازیابی نمیشوند.
این گزارش میگوید این حملات “نه تنها از نظر مالی مخرب هستند، بلکه از نظر عاطفی نیز دستکاریکنندهاند، با سوءاستفاده از اعتماد، اقتدار و آشنایی، دفاعهای انسانی را دور میزنند.”
متاسفانه، انسانها به راحتی فریب میخورند و از قبل تمایل زیادی به پذیرش جعل صوتی در سطح بالایی نشان دادهاند. در حالی که اسپاتیفای میلیونها دیپفیک را از پلتفرم خود حذف کرده است، اما کاتالوگ گروه The Velvet Sundown را حذف نکرده است، یک گروه موسیقی راک دهه ۱۹۷۰ به سبک کانتری که توسط هوش مصنوعی و به عنوان یک شوخی ایجاد شده است و خود را به عنوان “پروژه موسیقی مصنوعی با هدایت خلاقانه انسانی” معرفی میکند. آهنگ این گروه با عنوان “Dust on the Wind” تاکنون بیش از ۳ میلیون بار پخش شده است.
منبع: Biometric Update