روش بیومتریک صدا چیست؟
صدای یک فرد – یعنی نحوه صدای آنها هنگام صحبت کردن- نتیجه ترکیبی از ویژگیهای فیزیکی متمایز ( مانند طول تارهای صوتی و شکل گلو) و ویژگیهای رفتاری متمایز ( مانند لهجهای است که شخص مطابق آن صحبت میکند.)
صدای انسان دارای طول موج قابل اندازهگیری است. صدا توسط نرمافزاری جمعآوری و تجزیه و تحلیل میشود که از تکنیکهای هوش مصنوعی و یادگیری ماشین برای تولید مجموعه وسیعی از دادههای مشتق شده از عواملی مانند مدولاسیون گفتار، تنها، لهجه، فرکانس و غیره استفاده میکند. این عناصر سیستم را قادر میسازند تا یک الگوی مرجع ایجاد کند. صدا (معروف به مدل صوتی) میتواند برای احراز هویت گوینده در تراکنشهای بعدی استفاده شود. در همین راستا با بهکارگیری فناوری مشابه به دستگاهها اجازه داده میشود تا یک فرمان/ سؤال صوتی را بفهمند، ترجمه کنند و با آن تعامل داشته باشند، به عنوان مثال، هنگام صحبت با بلندگوهای هوشمند، دستگاههای تلفن همراه، لوازم خانگی، دستیاران مجازی.
بین تشخیص سخنران (تشخیص اینکه چه کسی صحبت میکند) در کاربردهای بیومتریک و تشخیص گفتار (تشخیص آنچه گفته میشود) تفاوت وجود دارد. در برنامههایی مانند دیکته ماشینی، سیستمهای فرمان صوتی، اتوماسیون تلفنی یکپارچه، و غیره. به زبان ساده «صدا» مترادف گوینده است و نه گفتار.
کاربردها:
- سازمانهای مبتنی بر تماس تلفنی و برخی مؤسسات مالی در دهه گذشته بهصورت گستردهای از تشخیص سخنران برای تسریع بررسی هویت خودکار استفاده میکنند؛
- سیستمهای شناسایی گوینده را میتوان بهطور پنهانی و بدون اطلاع کاربر برای شناسایی سخنران و اینکه آیا قبلاً صوت این سخنران در سیستمی ثبت شده است یا خیر، استفاده نمود؛
- یادداشتهای پزشکی- یادداشتهای دیکتهای بدون هندزفری و هویتی از پزشکان و جراحان برای تکمیل فرمها و گزارشهای پیچیده پزشکی؛
- ارتباط هندزفری داخل خودرو- انتخاب ایستگاههای رادیویی، پخش موسیقی از دستگاههای متصل، برقراری تماسهای تلفنی در آینده، صدور فرمانها و دستورات، با بررسی هویت تأیید شده برای وسایل نقلیه خودران؛
- هواپیماهای جنگنده- بررسی هویت تأیید شده خلبان/خدمه به آنها اجازه میدهد تا دستورات صوتی را برای کنترل عملکردهای غیرحیاتی کابین خلبان صادر کنند؛
- احراز هویت چندعاملی- با استفاده از تشخیص صدا همراه با سایر روشهای بیومتریک و/ یا روشهای غیربیومتریک.
ملاحظات کلیدی:
تشخیص صدا (گوینده) را میتوان هم برای تأیید یک به یک (1:1) و هم برای حالتهای بیومتریک شناسایی یک به چند (1:N) استفاده کرد.
در حالت تأیید یک به یک، تشخیص گوینده از صدا بهعنوان روشی برای تأیید هویت گوینده استفاده میشود. حالت شناسایی یک به چند برای تعیین هویت یک گوینده ناشناخته استفاده میشود. در این روش صدا با دادههای صوتی پایگاه داده مقایسه شده و سیستم با استفاده از مقایسه و راستیآزمایی یک به یک، هر کاندید و یا قضاوت انسانی متخصص که تطابق بیشتری با نمونه دارد را برای تجزیه و تحلیل بیشتر انتخاب میکند.
فرایندهای ثبت نام و تأیید صدا و تشخیص صدا میتوانند در هر محیطی که نویز بیش از حد وجود نداشته باشد، عمل کنند. این فناوری بهعنوان یک بیومتریک از راه دور با استفاده از ارتباطات الکترونیکی مطرح است. لذا در این روش هویت گویندگان باید احراز و تأیید شود تا به آنها اجازه درخواست خدمات، انجام تراکنش، صدور دستور و یا ثبت اطلاعات کلامی پیچیده داده شود.
حملات و جعل صوت در سیستمهای تشخیص صدا یک ملاحظه مهم است و شامل چالشهایی مانند تقلید صدا، تغییر مصنوعی صدا توسط نرمافزار و پخش مجدد ضبط میشود. اقدامات ضد جعل عبارت است از تشخیص واقعی و زنده بودن در طول فرایند و تشخیص مصنوعات مختلف و جعلی در تولید صدا.