تشخیص اشیا در سیستم‌های نظارت تصویری (با چشم‌انداز فناوری‌های سال 2025) قسمت سوم

0

تشخیص اشیا در سیستم‌های نظارت تصویری

(با چشم‌انداز فناوری‌های سال 2025)

قسمت سوم

 قسمت قبل

کاربردهای تشخیص اشیا از طریق یادگیری عمیق

موارد استفاده تشخیص شیء بسیار متنوع است. روش‌های تقریباً نامحدودی وجود دارد تا رایانه‌ها شبیه انسان ببینند و کارهای دستی را خودکار کنند یا محصولات و خدمات جدید با هوش مصنوعی ایجاد کنند. این موضوع در برنامه‌های بینایی کامپیوتری پیاده‌سازی شده است که برای طیف وسیعی از کاربردها، از تولید ورزشی گرفته تا تجزیه و تحلیل بهره‌وری استفاده می‌شوند.

تشخیص اشیاء در زمان واقعی در شهرهای هوشمند برای تشخیص عابر پیاده با انواع مختلف اشیا
تشخیص اشیاء در زمان واقعی در شهرهای هوشمند برای تشخیص عابر پیاده با انواع مختلف اشیا

نمونه‌ای از تشخیص اشیا در تجزیه و تحلیل ویدئویی هوش مصنوعی برای تشخیص افراد در مناطق خطرناک با استفاده از دوربین‌های مدار بسته

امروزه، شناسایی اشیا از طریق یادگیری عمیق، هسته اصلی اکثر نرم‌افزارها و برنامه‌های هوش مصنوعی مبتنی بر بینایی است. تشخیص اشیا، نقش مهمی در درک صحنه ایفا می‌کند که در موارد امنیتی، ساخت‌وساز، حمل‌و‌نقل، پزشکی و نظامی رایج است.

تشخیص اشیا در فروشگاه خرده فروشی

سیستم‌های شمارش مشتریان در فروشگاه‌های خرده‌فروشی برای جمع‌آوری اطلاعات در مورد نحوه گذراندن وقت مشتریان و میزان حضور آن‌ها در بخش‌های مختلف فروشگاه استفاده می‌شود. تجزیه و تحلیل مشتری مبتنی بر هوش مصنوعی برای شناسایی و ردیابی مشتریان کمک می‌کند تا درک درستی از تعامل مشتری و تجربه مشتری به دست آوریم و چیدمان فروشگاه را بهینه کرده و عملیات را کارآمدتر نماییم. یک مورد استفاده پرکاربرد، تشخیص صف برای کاهش زمان انتظار در فروشگاه‌های خرده‌فروشی است.

رانندگی خودران

خودروهای خودران برای تشخیص عابران پیاده، علائم راهنمایی و رانندگی، وسایل نقلیه دیگر و سایر موارد، به شناسایی اشیا نیاز دارند. به‌عنوان مثال، هوش مصنوعی خودکار تسلا به شدت از تشخیص اشیا برای درک تهدیدات محیطی و اطراف، مانند وسایل نقلیه روبه‌رو یا موانع، استفاده می‌کند.

تشخیص افراد در امنیت

طیف گسترده‌ای از برنامه‌های امنیتی در نظارت تصویری مبتنی بر تشخیص اشیا است، به‌عنوان مثال، برای شناسایی افراد در مناطق محدود یا خطرناک، پیشگیری از جرایم، یا خودکار کردن وظایف بازرسی در مکان های دور با دید کامپیوتری.

تشخیص خودرو با هوش مصنوعی در حمل و نقل

شناسایی اشیا برای تشخیص و شمارش وسایل نقلیه به‌منظور تجزیه و تحلیل ترافیک یا شناسایی اتومبیل‌هایی که در مناطق خطرناک توقف می‌کنند، به عنوان مثال، در چهارراه‌ها یا بزرگراه‌ها استفاده می‌شود.

تشخیص اشیا در سیستم‌های نظارت تصویری

محبوب‌ترین الگوریتم‌های تشخیص اشیا

الگوریتم‌های پرکاربردی که برای تشخیص اشیا استفاده می‌شوند عبارتند از: شبکه‌های عصبی کانولوشن
(R-CNN، شبکه های عصبی کانولوشن مبتنی بر منطقه)، Fast R-CNN و YOLO (شما فقط یک بار نگاه می‌کنید). R-CNN ها از خانواده R-CNN هستند، در حالی که YOLO بخشی از خانواده آشکارسازهای تک‌شات است. در ادامه به معرفی این مدل‌ها می‌پردازیم و به تفاوت‌های الگوریتم‌های رایج تشخیص اشیا اشاره می‌کنیم.

YOLO (مخفف «You Only Look Once» شما فقط یک بار نگاه می‌کنید)

YOLO یک نوع پرکاربرد از الگوریتم تشخیص اشیا در زمان واقعی است که در بسیاری محصولات تجاری استفاده می‌شود و توسط بزرگ‌ترین شرکت‌های فناوری استفاده‌کننده از بینایی کامپیوتر به‌کار می‌رود. آشکارساز شیء اصلی YOLO برای اولین بار در سال 2016 عرضه شد و به‌طور قابل توجهی سریع‌تر از هر آشکارساز شیء دیگر عمل نمود.

از آن زمان، نسخه‌ها و انواع مختلفی از YOLO منتشر شده است که هر کدام باعث افزایش قابل توجهی در عملکرد و کارایی شده‌اند. YOLOv4 یک نسخه بهبودیافته از YOLOv3 رسمی است. تیم‌های تحقیقاتی نسخه YOLO خود را منتشر کردند، به‌عنوان مثال YOLOv5، YOLOv7، YOLOv8 یا YOLOv9.

YOLOv7 یکی از سریع‌ترین و دقیق‌ترین مدل‌های تشخیص شیء در زمان واقعی برای کارهای بینایی کامپیوتری است. مقاله رسمی YOLOv7 در جولای 2022 توسط Chien-Yao Wang، Alexey Bochkovskiy و Hong-Yuan Mark Liao منتشر شد.

مدل برجسته دیگر YOLOv8، توسط Ultralytics توسعه یافته است و طوری طراحی شده که استفاده از آن، سریع، دقیق و آسان باشد.

تشخیص وسیله نقلیه مبتنی بر دوربین و تشخیص شخص با YOLOv7

SSD   (Single-Shot Detector)آشکارساز تک‌شات

SSD یک آشکارساز یک‌مرحله‌ای پرکاربرد و محبوب است که می‌تواند چندین کلاس را پیش‌بینی کند. این روش اشیای موجود در تصاویر را با استفاده از یک شبکه عصبی عمیق شناسایی می‌کند. این کار با گسسته کردن فضای خروجی جعبه‌های مرزی در مجموعه‌ای از جعبه‌های پیش‌فرض در نسبت‌ها و مقیاس‌های مختلف در هر مکان صورت می‌پذیرد.

آشکارساز تصویری اشیا، امتیازهایی را برای حضور هر دسته شیء در هر جعبه پیش‌فرض ایجاد می‌کند و کادر را برای تناسب بهتر با شکل جسم تنظیم می‌کند. همچنین پیش‌بینی‌هایی را از نقشه‌های چندگانه با وضوح‌های مختلف ترکیب می‌کند تا اشیا با اندازه‌های مختلف را مدیریت نماید.

آشکارساز SSD به راحتی قابل آموزش و ادغام در سیستم‌های نرم‌افزاری است که به یک جزء تشخیص شیء نیاز دارند. در مقایسه با سایر روش‌های تک‌مرحله‌ای، SSD حتی با اندازه‌های تصویر ورودی کوچک‌تر هم دقت بسیار خوبی دارد.

تشخیص اشیا برای مکان‌یابی اشیا با جعبه‌های محدود در یک قاب ویدئو
تشخیص اشیا برای مکان‌یابی اشیا با جعبه‌های محدود در یک قاب ویدئو

تشخیص اشیا در سیستم‌های نظارت تصویری

R-CNN شبکه‌های عصبی کانولوشن مبتنی بر منطقه

شبکه‌های عصبی کانولوشنال مبتنی بر منطقه یا مناطق با ویژگی‌های CNN (R-CNN) رویکردهای پیشگامی هستند که مدل‌های عمیق را برای تشخیص اشیا اعمال می‌کنند. مدل‌های R-CNN ابتدا چندین ناحیه پیشنهادی را از یک تصویر انتخاب می‌کنند (به عنوان مثال، جعبه‌های لنگر یکی از انواع روش‌های انتخاب هستند) و سپس دسته‌ها و جعبه‌های مرزی آن‌ها را برچسب‌گذاری می‌کنند (مثلاً، آفست). این برچسب‌ها براساس کلاس‌های از پیش‌تعریف‌شده ورودی به برنامه، ایجاد می‌شوند. سپس از یک شبکه عصبی کانولوشن (CNN) برای انجام محاسبات رو به جلو برای استخراج ویژگی‌ها از هر ناحیه پیشنهادی استفاده می‌کنند.

در R-CNN، ابتدا تصویر ورودی به نزدیک به دو هزار بخش منطقه تقسیم می‌شود و سپس یک CNN به ترتیب برای هر منطقه اعمال می‌شود. اندازه مناطق محاسبه می‌شود و ناحیه صحیح در شبکه عصبی درج می‌گردد. البته چنین روش دقیقی می‌تواند محدودیت‌های زمانی نیز ایجاد کند. همچنین زمان آموزش آن در مقایسه با YOLO به‌طور قابل توجهی بیشتر است؛ زیرا جعبه‌های مرزی را به‌صورت جداگانه طبقه‌بندی و ایجاد می‌کند و یک شبکه عصبی در یک زمان در یک منطقه اعمال می‌شود.

در سال 2015، Fast R-CNN برای کاهش قابل توجه زمان، توسعه یافت. در حالی که R-CNN اصلی به‌طور مستقل ویژگی‌های شبکه عصبی را در هر یک از دو هزار منطقه مورد نظر محاسبه می‌کرد، Fast R-CNN شبکه عصبی را یک بار در کل تصویر اجرا می‌نمود که با معماری YOLO قابل مقایسه است؛ اما YOLO به دلیل سادگی کد، جایگزین سریع‌تری برای Fast R-CNN محسوب می‌شود.

در انتهای شبکه یک روش جدید به نام ادغام منطقه مورد علاقه (ROI) وجود دارد که هر منطقه مورد نظر را از تانسور خروجی شبکه جدا می‌کند، دوباره شکل می‌دهد و آن را طبقه‌بندی می‌نماید (طبقه‌بندی تصویر). این باعث می‌شود Fast R-CNN دقیق‌تر از R-CNN اصلی باشد. با این حال، به دلیل این تکنیک تشخیص، ورودی داده‌های کمتری برای آموزش آشکارسازهای Fast R-CNN و R-CNN مورد نیاز است.

تشخیص اشیا در سیستم‌های نظارت تصویری

Mask R-CNN

Mask R-CNN یک  Fast R-CNNپیشرفته است. تفاوت بین این دو در این است که در Mask R-CNN یک شاخه برای پیش‌بینی ماسک شیء به‌موازات شاخه موجود برای تشخیص جعبه مرزی اضافه شده است. آموزش
Mask R-CNN ساده است و فقط مقدار کمی به آموزش‌های Fast R-CNN اضافه می‌شود و می‌تواند با سرعت 5 فریم در ثانیه اجرا شود.

Mask R-CNN مثال با تقسیم‌بندی تصویر و تشخیص اشیای تصویر
Mask R-CNN مثال با تقسیم‌بندی تصویر و تشخیص اشیای تصویر

Mask R-CNN مثال با تقسیم‌بندی تصویر و تشخیص اشیای تصویر

SqueezeDet

SqueezeDet نام یک شبکه عصبی عمیق برای بینایی کامپیوتری است که در سال 2016 منتشر شد. این شبکه به‌طور خاص برای رانندگی خودکار توسعه یافت؛ جایی که با استفاده از تکنیک‌های بینایی کامپیوتری، تشخیص اشیا را انجام می‌دهد. این الگوریتم مانند YOLO یک الگوریتم آشکارساز تک‌شات است. در SqueezeDet، لایه‌های کانولوشنال نه‌تنها برای استخراج نقشه‌های ویژگی، بلکه به‌عنوان لایه خروجی برای محاسبه جعبه‌های مرزی و احتمالات کلاس استفاده می‌شوند. خط لوله تشخیص مدل‌های SqueezeDet فقط شامل گذرهای منفرد رو به جلو از شبکه‌های عصبی است که به آن‌ها اجازه می‌دهد بسیار سریع باشند.

MobileNet

MobileNet یک شبکه تشخیص چند جعبه تک‌شات است که برای اجرای وظایف تشخیص اشیا استفاده می‌شود. این مدل با استفاده از چهارچوب Caffe پیاده‌سازی شده است. خروجی مدل یک بردار معمولی است که شامل داده‌های شیء ردیابی شده است.

YOLOR

YOLOR یک آشکارساز شیء جدید است که در سال 2021 معرفی شد. این الگوریتم دانش ضمنی و صریح را در آموزش مدل، به‌طور همزمان اعمال می‌کند. بنابراین YOLOR می‌تواند یک نمایش کلی را بیاموزد و چندین کار را از طریق این نمایش کلی انجام دهد. دانش ضمنی از طریق هم‌ترازی فضای هسته، اصلاح پیش‌بینی و یادگیری چندوظیفه‌ای در دانش صریح ادغام می‌شود. از طریق این روش، YOLOR به نتایج بسیار بهبود یافته‌ای در تشخیص اشیا دست می‌یابد.

در مقایسه با سایر روش‌های تشخیص شیء در معیار داده COCO، MAP YOLOR 3.8درصد بالاتر از
PP-YOLOv2 در همان سرعت استنتاج عمل می‌کند و در مقایسه با Scaled-YOLOv4، سرعت استنتاج به 88 درصد افزایش یافته است که به این ترتیب در حال حاضر، آن را به سریع‌ترین آشکارساز شیء در زمان واقعی تبدیل می‌کند.

تشخیص اشیا در سیستم‌های نظارت تصویری

کاربردهای بعدی Deep Learning Object Detection چیست؟

تشخیص اشیا یکی از اساسی‌ترین و چالش برانگیزترین مسائل در بینایی کامپیوتر است و احتمالاً به‌عنوان مهم‌ترین تکنیک بینایی کامپیوتری، در سال‌های اخیر مورد توجه زیادی قرار گرفته است. به‌ویژه با موفقیت روش‌های یادگیری عمیق که در حال حاضر بر روش‌های تشخیص پیشرفته، چیره شده است.

یکی از موارد استفاده از تشخیص اشیا، تشخیص محصول است که عمدتاً توسط خرده‌فروشان برای بهبود کارایی عملیاتی و صرفه‌جویی در هزینه‌ها استفاده می‌شود. روش‌های تشخیص محصول، فرایند شناسایی و طبقه‌بندی محصولات را با استفاده از الگوریتم‌های هوش مصنوعی با یادگیری عمیق خودکار می‌کنند.

 

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.