روش بیومتریک صدا چیست؟

نویسنده: کاربر 1 آخرین بروزرسانی 16 خرداد 1402

روش بیومتریک صدا چیست؟

صدای یک فرد – یعنی نحوه صدای آنها هنگام صحبت کردن- نتیجه ترکیبی از ویژگی‌های فیزیکی متمایز ( مانند طول تارهای صوتی و شکل گلو) و ویژگی‌های رفتاری متمایز ( مانند لهجه‌ای است که شخص مطابق آن صحبت می‌کند.)

صدای انسان دارای طول موج قابل اندازه‌گیری است. صدا توسط نرم‌افزاری جمع‌آوری و تجزیه و تحلیل می‌شود که از تکنیک‌های هوش مصنوعی و یادگیری ماشین برای تولید مجموعه وسیعی از داده‌های مشتق شده از عواملی مانند مدولاسیون گفتار، تن‌ها، لهجه، فرکانس و غیره استفاده می‌کند. این عناصر سیستم را قادر می‌سازند تا یک الگوی مرجع ایجاد کند. صدا (معروف به مدل صوتی) می‌تواند برای احراز هویت گوینده در تراکنش‌های بعدی استفاده شود. در همین راستا با به‌کارگیری فناوری مشابه به دستگاه‌ها اجازه داده می‌شود تا یک فرمان/ سؤال صوتی را بفهمند، ترجمه کنند و با آن تعامل داشته باشند، به عنوان مثال، هنگام صحبت با بلندگوهای هوشمند، دستگاه‌های تلفن همراه، لوازم خانگی، دستیاران مجازی.

بین تشخیص سخنران (تشخیص اینکه چه کسی صحبت می‌کند) در کاربردهای بیومتریک و تشخیص گفتار (تشخیص آنچه گفته می‌شود) تفاوت وجود دارد. در برنامه‌هایی مانند دیکته ماشینی، سیستم‌های فرمان صوتی، اتوماسیون تلفنی یکپارچه، و غیره. به زبان ساده «صدا» مترادف گوینده است و نه گفتار.

کاربردها:

سازمان‌های مبتنی بر تماس تلفنی و برخی مؤسسات مالی در دهه گذشته به‌صورت گسترده‌ای از تشخیص سخنران برای تسریع بررسی هویت خودکار استفاده می‌کنند؛
سیستم‌های شناسایی گوینده را می‌توان به‌طور پنهانی و بدون اطلاع کاربر برای شناسایی سخنران و اینکه آیا قبلاً صوت این سخنران در سیستمی ثبت شده است یا خیر، استفاده نمود؛
یادداشت‌های پزشکی- یادداشت‌های دیکته‌ای بدون هندزفری و هویتی از پزشکان و جراحان برای تکمیل فرم‌ها و گزارش‌های پیچیده پزشکی؛
ارتباط هندزفری داخل خودرو- انتخاب ایستگاه‌های رادیویی، پخش موسیقی از دستگاه‌های متصل، برقراری تماس‌های تلفنی در آینده، صدور فرمان‌ها و دستورات، با بررسی هویت تأیید شده برای وسایل نقلیه خودران؛
هواپیماهای جنگنده- بررسی هویت تأیید شده خلبان/خدمه به آنها اجازه می‌دهد تا دستورات صوتی را برای کنترل عملکردهای غیرحیاتی کابین خلبان صادر کنند؛
احراز هویت چندعاملی- با استفاده از تشخیص صدا همراه با سایر روش‌های بیومتریک و/ یا روش‌های غیربیومتریک.

ملاحظات کلیدی:

تشخیص صدا (گوینده) را می‌توان هم برای تأیید یک به یک (1:1) و هم برای حالت‌های بیومتریک شناسایی یک به چند (1:N) استفاده کرد.

در حالت تأیید یک به یک، تشخیص گوینده از صدا به‌عنوان روشی برای تأیید هویت گوینده استفاده می‌شود. حالت شناسایی یک به چند برای تعیین هویت یک گوینده ناشناخته استفاده می‌شود. در این روش صدا با داده‌های صوتی پایگاه داده مقایسه شده و سیستم با استفاده از مقایسه و راستی‌آزمایی یک به یک، هر کاندید و یا قضاوت انسانی متخصص که تطابق بیشتری با نمونه دارد را برای تجزیه و تحلیل بیشتر انتخاب می‌کند.

فرایندهای ثبت نام و تأیید صدا و تشخیص صدا می‌توانند در هر محیطی که نویز بیش از حد وجود نداشته باشد، عمل کنند. این فناوری به‌عنوان یک بیومتریک از راه دور با استفاده از ارتباطات الکترونیکی مطرح است. لذا در این روش هویت گویندگان باید احراز و تأیید شود تا به آنها اجازه درخواست خدمات، انجام تراکنش، صدور دستور و یا ثبت اطلاعات کلامی پیچیده داده شود.

حملات و جعل صوت در سیستم‌های تشخیص صدا یک ملاحظه مهم است و شامل چالش‌هایی مانند تقلید صدا، تغییر مصنوعی صدا توسط نرم‌افزار و پخش مجدد ضبط می‌شود. اقدامات ضد جعل عبارت است از تشخیص واقعی و زنده بودن در طول فرایند و تشخیص مصنوعات مختلف و جعلی در تولید صدا.

برای ادامه مطالعه کلیک کنید …

بیومتریک صدا