صداهای جعلی، واقعی می شوند

صداهای جعلی، واقعی می شوند

“کلون‌های صدا می‌توانند به اندازه صدای انسان واقعی به نظر برسند،” این را یک تحقیق جدید می‌گوید هوش مصنوعی مولد ساخت صداهای مصنوعی را آسان کرده است که می‌تواند گوش انسان را فریب دهد.

داستان برنده‌ی جایزه‌ی «من دهان ندارم و باید فریاد بزنم» اثر هارلن الیسون، نویسنده‌ی علمی-تخیلی آمریکایی، درباره‌ی یک ابررایانه‌ی خبیث است که نسل بشر را نابود می‌کند. بحران دیپ‌فیک صدا هنوز به آن سطح نرسیده است، اما عنوان آن به طور گسترده‌ای یادآور هجوم صداهای مصنوعی است که جهان را فرا گرفته است. پلتفرم پخش صوتی اسپاتیفای تنها در سال گذشته، ۷۵ میلیون قطعه‌ی اسپم را از کتابخانه‌ی خود حذف کرده است.

با آسان‌تر شدن استفاده از هوش مصنوعی برای تولید موسیقی و صدا، تشخیص دیپ‌فیک‌ها و صداهای مصنوعی نیز دشوارتر می‌شود. در واقع، بر اساس تحقیقات جدید دانشگاه کوئین مری لندن، یک شنونده‌ی معمولی دیگر نمی‌تواند بین صداهای دیپ‌فیک و صداهای انسان‌های واقعی تمایز قائل شود.

در چکیده‌ی این تحقیق آمده است: «اخیراً، اثر جالبی در چهره‌های تولیدشده توسط هوش مصنوعی گزارش شده است، به طوری که این تصاویر چهره، انسانی‌تر از تصاویر انسان‌های واقعی درک می‌شوند.» تیم تحقیقاتی تصمیم گرفت آزمایش کند که آیا یک «اثر فراواقع‌گرایی» مشابه نیز برای صداهای تولیدشده توسط هوش مصنوعی وجود دارد یا خیر.

آنها این کار را با مقایسه‌ی صداهای انسان‌های واقعی با دو نوع مختلف از صداهای مصنوعی تولیدشده با هوش مصنوعی انجام دادند: صداهای شبیه‌سازی‌شده بر اساس ضبط‌های واقعی و صداهای سنتز‌شده از مدل بزرگ صوتی «Voice Design» شرکت ElevenLabs، بدون همتای انسانی خاص. (محققان در مورد دومی خاطرنشان می‌کنند: «صداهای عمومی تولیدشده توسط هوش مصنوعی با این سبک خاص، در حال حاضر برای تولید هویت‌های آوازی جدید و به عنوان مثال، به عنوان صداگذاری برای تبلیغات و ویدیوهای محتوای آنلاین یا برای روایت کتاب‌های صوتی یا پادکست‌ها استفاده می‌شوند.»)

از شرکت‌کنندگان خواسته شد که کدام صداها واقعی‌تر، غالب‌تر و قابل‌اعتمادتر به نظر می‌رسند.

نتیجه‌گیری این مطالعه این است که «صداهای شبیه‌سازی‌شده می‌توانند به اندازه‌ی صداهای انسانی واقعی به نظر برسند و تشخیص آن‌ها را برای شنوندگان دشوار کند»

هر دو نوع صدای تولید شده توسط هوش مصنوعی، غالب‌تر از صدای انسان ارزیابی شدند و برخی از صداهای تولید شده توسط هوش مصنوعی، قابل اعتمادتر نیز تلقی می‌شدند. با این حال، نتایج از فرضیه فراواقع‌گرایی (hyperrealism) پشتیبانی نکرد و این موضوع، حاکی از تفاوت احتمالی در درک چهره‌های جعلی و صداهای جعلی است.

هوش مصنوعیِ صدا، همه‌جا حاضر در برج بابل دیپ‌فیک

در یک خبرنامه، به نقل از دکتر نادین لاوان، مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن که یکی از سرپرستان این مطالعه بود، آمده است: «صداهای تولید شده توسط هوش مصنوعی، اکنون در اطراف ما هستند. همه ما با الکسا یا سیری صحبت کرده‌ایم یا تماس‌هایمان توسط سیستم‌های خدمات مشتری خودکار پاسخ داده شده است. این موارد کاملاً شبیه صداهای واقعی انسان نیستند، اما فقط مسئله زمان بود که فناوری هوش مصنوعی شروع به تولید گفتار طبیعی و شبیه به صدای انسان کند. مطالعه ما نشان می‌دهد که این زمان فرا رسیده است و ما به فوریت نیاز داریم تا درک کنیم که مردم چگونه این صداهای واقع‌گرایانه را درک می‌کنند». بخشی از این فوریت، ناشی از انفجار تقلب صوتی دیپ‌فیک است که «ویشینگ» (vishing) نیز نامیده می‌شود. تحقیقات جدیدی از Group IB به بررسی «کالبدشکافی حمله فیشینگ صوتی دیپ‌فیک» می‌پردازد.

در این گزارش آمده است: «این تحقیق با تکیه بر تجربه Group-IB در حوادث دنیای واقعی و تله‌متری اطلاعات تهدید، بخش‌هایی را که بیشتر در معرض خطر هستند برجسته می‌کند: امور مالی، خدمات اجرایی و میزهای کمک‌رسانی کار از راه دور.» این گزارش خاطر نشان می‌کند که محققان از تکنیک‌های تشخیص مانند اثر انگشت آکوستیک و احراز هویت چند وجهی برای ارائه یک «استراتژی دفاعی لایه‌ای که تجزیه و تحلیل ناهنجاری مبتنی بر هوش مصنوعی را با آموزش آگاهی ‌بخشی قوی به کارکنان ترکیب می‌کند» به متخصصان امنیت سایبری استفاده کردند.

تحقیقات نشان می‌دهد که پیش‌بینی می‌شود خسارات ناشی از کلاهبرداری با استفاده از دیپ‌فیک تا سال ۲۰۲۷ به ۴۰ میلیارد دلار برسد. منطقه آسیا-اقیانوسیه در حال حاضر کانون اصلی این موضوع است و تلاش‌های کلاهبرداری مرتبط با دیپ‌فیک در این منطقه در سال ۲۰۲۴ با افزایش ۱۹۴ درصدی مواجه شده است. بیش از ۱۰ درصد از موسسات مالی مورد بررسی، حملات ویشینگ دیپ‌فیک را تجربه کرده‌اند که خساراتی بیش از ۱ میلیون دلار به بار آورده است؛ متوسط زیان در هر مورد تقریباً ۶۰۰,۰۰۰ دلار است. و به دلیل پولشویی سریع، وجوه دزدیده شده تقریباً هرگز بازیابی نمی‌شوند.

این گزارش می‌گوید این حملات “نه تنها از نظر مالی مخرب هستند، بلکه از نظر عاطفی نیز دستکاری‌کننده‌اند، با سوءاستفاده از اعتماد، اقتدار و آشنایی، دفاع‌های انسانی را دور می‌زنند.”

متاسفانه، انسان‌ها به راحتی فریب می‌خورند و از قبل تمایل زیادی به پذیرش جعل صوتی در سطح بالایی نشان داده‌اند. در حالی که اسپاتیفای میلیون‌ها دیپ‌فیک را از پلتفرم خود حذف کرده است، اما کاتالوگ گروه The Velvet Sundown را حذف نکرده است، یک گروه موسیقی راک دهه ۱۹۷۰ به سبک کانتری که توسط هوش مصنوعی و به عنوان یک شوخی ایجاد شده است و خود را به عنوان “پروژه موسیقی مصنوعی با هدایت خلاقانه انسانی” معرفی می‌کند. آهنگ این گروه با عنوان “Dust on the Wind” تاکنون بیش از ۳ میلیون بار پخش شده است.

منبع: Biometric Update