تشخیص اشیا در سیستمهای نظارت تصویری (با چشمانداز فناوریهای سال 2025) قسمت سوم
تشخیص اشیا در سیستمهای نظارت تصویری
(با چشمانداز فناوریهای سال 2025)
قسمت سوم
کاربردهای تشخیص اشیا از طریق یادگیری عمیق
موارد استفاده تشخیص شیء بسیار متنوع است. روشهای تقریباً نامحدودی وجود دارد تا رایانهها شبیه انسان ببینند و کارهای دستی را خودکار کنند یا محصولات و خدمات جدید با هوش مصنوعی ایجاد کنند. این موضوع در برنامههای بینایی کامپیوتری پیادهسازی شده است که برای طیف وسیعی از کاربردها، از تولید ورزشی گرفته تا تجزیه و تحلیل بهرهوری استفاده میشوند.
نمونهای از تشخیص اشیا در تجزیه و تحلیل ویدئویی هوش مصنوعی برای تشخیص افراد در مناطق خطرناک با استفاده از دوربینهای مدار بسته
امروزه، شناسایی اشیا از طریق یادگیری عمیق، هسته اصلی اکثر نرمافزارها و برنامههای هوش مصنوعی مبتنی بر بینایی است. تشخیص اشیا، نقش مهمی در درک صحنه ایفا میکند که در موارد امنیتی، ساختوساز، حملونقل، پزشکی و نظامی رایج است.
تشخیص اشیا در فروشگاه خرده فروشی
سیستمهای شمارش مشتریان در فروشگاههای خردهفروشی برای جمعآوری اطلاعات در مورد نحوه گذراندن وقت مشتریان و میزان حضور آنها در بخشهای مختلف فروشگاه استفاده میشود. تجزیه و تحلیل مشتری مبتنی بر هوش مصنوعی برای شناسایی و ردیابی مشتریان کمک میکند تا درک درستی از تعامل مشتری و تجربه مشتری به دست آوریم و چیدمان فروشگاه را بهینه کرده و عملیات را کارآمدتر نماییم. یک مورد استفاده پرکاربرد، تشخیص صف برای کاهش زمان انتظار در فروشگاههای خردهفروشی است.
رانندگی خودران
خودروهای خودران برای تشخیص عابران پیاده، علائم راهنمایی و رانندگی، وسایل نقلیه دیگر و سایر موارد، به شناسایی اشیا نیاز دارند. بهعنوان مثال، هوش مصنوعی خودکار تسلا به شدت از تشخیص اشیا برای درک تهدیدات محیطی و اطراف، مانند وسایل نقلیه روبهرو یا موانع، استفاده میکند.
تشخیص افراد در امنیت
طیف گستردهای از برنامههای امنیتی در نظارت تصویری مبتنی بر تشخیص اشیا است، بهعنوان مثال، برای شناسایی افراد در مناطق محدود یا خطرناک، پیشگیری از جرایم، یا خودکار کردن وظایف بازرسی در مکان های دور با دید کامپیوتری.
تشخیص خودرو با هوش مصنوعی در حمل و نقل
شناسایی اشیا برای تشخیص و شمارش وسایل نقلیه بهمنظور تجزیه و تحلیل ترافیک یا شناسایی اتومبیلهایی که در مناطق خطرناک توقف میکنند، به عنوان مثال، در چهارراهها یا بزرگراهها استفاده میشود.
تشخیص اشیا در سیستمهای نظارت تصویری
محبوبترین الگوریتمهای تشخیص اشیا
الگوریتمهای پرکاربردی که برای تشخیص اشیا استفاده میشوند عبارتند از: شبکههای عصبی کانولوشن
(R-CNN، شبکه های عصبی کانولوشن مبتنی بر منطقه)، Fast R-CNN و YOLO (شما فقط یک بار نگاه میکنید). R-CNN ها از خانواده R-CNN هستند، در حالی که YOLO بخشی از خانواده آشکارسازهای تکشات است. در ادامه به معرفی این مدلها میپردازیم و به تفاوتهای الگوریتمهای رایج تشخیص اشیا اشاره میکنیم.
YOLO – (مخفف «You Only Look Once» شما فقط یک بار نگاه میکنید)
YOLO یک نوع پرکاربرد از الگوریتم تشخیص اشیا در زمان واقعی است که در بسیاری محصولات تجاری استفاده میشود و توسط بزرگترین شرکتهای فناوری استفادهکننده از بینایی کامپیوتر بهکار میرود. آشکارساز شیء اصلی YOLO برای اولین بار در سال 2016 عرضه شد و بهطور قابل توجهی سریعتر از هر آشکارساز شیء دیگر عمل نمود.
از آن زمان، نسخهها و انواع مختلفی از YOLO منتشر شده است که هر کدام باعث افزایش قابل توجهی در عملکرد و کارایی شدهاند. YOLOv4 یک نسخه بهبودیافته از YOLOv3 رسمی است. تیمهای تحقیقاتی نسخه YOLO خود را منتشر کردند، بهعنوان مثال YOLOv5، YOLOv7، YOLOv8 یا YOLOv9.
YOLOv7 یکی از سریعترین و دقیقترین مدلهای تشخیص شیء در زمان واقعی برای کارهای بینایی کامپیوتری است. مقاله رسمی YOLOv7 در جولای 2022 توسط Chien-Yao Wang، Alexey Bochkovskiy و Hong-Yuan Mark Liao منتشر شد.
مدل برجسته دیگر YOLOv8، توسط Ultralytics توسعه یافته است و طوری طراحی شده که استفاده از آن، سریع، دقیق و آسان باشد.
تشخیص وسیله نقلیه مبتنی بر دوربین و تشخیص شخص با YOLOv7
SSD (Single-Shot Detector)آشکارساز تکشات
SSD یک آشکارساز یکمرحلهای پرکاربرد و محبوب است که میتواند چندین کلاس را پیشبینی کند. این روش اشیای موجود در تصاویر را با استفاده از یک شبکه عصبی عمیق شناسایی میکند. این کار با گسسته کردن فضای خروجی جعبههای مرزی در مجموعهای از جعبههای پیشفرض در نسبتها و مقیاسهای مختلف در هر مکان صورت میپذیرد.
آشکارساز تصویری اشیا، امتیازهایی را برای حضور هر دسته شیء در هر جعبه پیشفرض ایجاد میکند و کادر را برای تناسب بهتر با شکل جسم تنظیم میکند. همچنین پیشبینیهایی را از نقشههای چندگانه با وضوحهای مختلف ترکیب میکند تا اشیا با اندازههای مختلف را مدیریت نماید.
آشکارساز SSD به راحتی قابل آموزش و ادغام در سیستمهای نرمافزاری است که به یک جزء تشخیص شیء نیاز دارند. در مقایسه با سایر روشهای تکمرحلهای، SSD حتی با اندازههای تصویر ورودی کوچکتر هم دقت بسیار خوبی دارد.
تشخیص اشیا در سیستمهای نظارت تصویری
R-CNN – شبکههای عصبی کانولوشن مبتنی بر منطقه
شبکههای عصبی کانولوشنال مبتنی بر منطقه یا مناطق با ویژگیهای CNN (R-CNN) رویکردهای پیشگامی هستند که مدلهای عمیق را برای تشخیص اشیا اعمال میکنند. مدلهای R-CNN ابتدا چندین ناحیه پیشنهادی را از یک تصویر انتخاب میکنند (به عنوان مثال، جعبههای لنگر یکی از انواع روشهای انتخاب هستند) و سپس دستهها و جعبههای مرزی آنها را برچسبگذاری میکنند (مثلاً، آفست). این برچسبها براساس کلاسهای از پیشتعریفشده ورودی به برنامه، ایجاد میشوند. سپس از یک شبکه عصبی کانولوشن (CNN) برای انجام محاسبات رو به جلو برای استخراج ویژگیها از هر ناحیه پیشنهادی استفاده میکنند.
در R-CNN، ابتدا تصویر ورودی به نزدیک به دو هزار بخش منطقه تقسیم میشود و سپس یک CNN به ترتیب برای هر منطقه اعمال میشود. اندازه مناطق محاسبه میشود و ناحیه صحیح در شبکه عصبی درج میگردد. البته چنین روش دقیقی میتواند محدودیتهای زمانی نیز ایجاد کند. همچنین زمان آموزش آن در مقایسه با YOLO بهطور قابل توجهی بیشتر است؛ زیرا جعبههای مرزی را بهصورت جداگانه طبقهبندی و ایجاد میکند و یک شبکه عصبی در یک زمان در یک منطقه اعمال میشود.
در سال 2015، Fast R-CNN برای کاهش قابل توجه زمان، توسعه یافت. در حالی که R-CNN اصلی بهطور مستقل ویژگیهای شبکه عصبی را در هر یک از دو هزار منطقه مورد نظر محاسبه میکرد، Fast R-CNN شبکه عصبی را یک بار در کل تصویر اجرا مینمود که با معماری YOLO قابل مقایسه است؛ اما YOLO به دلیل سادگی کد، جایگزین سریعتری برای Fast R-CNN محسوب میشود.
در انتهای شبکه یک روش جدید به نام ادغام منطقه مورد علاقه (ROI) وجود دارد که هر منطقه مورد نظر را از تانسور خروجی شبکه جدا میکند، دوباره شکل میدهد و آن را طبقهبندی مینماید (طبقهبندی تصویر). این باعث میشود Fast R-CNN دقیقتر از R-CNN اصلی باشد. با این حال، به دلیل این تکنیک تشخیص، ورودی دادههای کمتری برای آموزش آشکارسازهای Fast R-CNN و R-CNN مورد نیاز است.
تشخیص اشیا در سیستمهای نظارت تصویری
Mask R-CNN
Mask R-CNN یک Fast R-CNNپیشرفته است. تفاوت بین این دو در این است که در Mask R-CNN یک شاخه برای پیشبینی ماسک شیء بهموازات شاخه موجود برای تشخیص جعبه مرزی اضافه شده است. آموزش
Mask R-CNN ساده است و فقط مقدار کمی به آموزشهای Fast R-CNN اضافه میشود و میتواند با سرعت 5 فریم در ثانیه اجرا شود.
Mask R-CNN مثال با تقسیمبندی تصویر و تشخیص اشیای تصویر
SqueezeDet
SqueezeDet نام یک شبکه عصبی عمیق برای بینایی کامپیوتری است که در سال 2016 منتشر شد. این شبکه بهطور خاص برای رانندگی خودکار توسعه یافت؛ جایی که با استفاده از تکنیکهای بینایی کامپیوتری، تشخیص اشیا را انجام میدهد. این الگوریتم مانند YOLO یک الگوریتم آشکارساز تکشات است. در SqueezeDet، لایههای کانولوشنال نهتنها برای استخراج نقشههای ویژگی، بلکه بهعنوان لایه خروجی برای محاسبه جعبههای مرزی و احتمالات کلاس استفاده میشوند. خط لوله تشخیص مدلهای SqueezeDet فقط شامل گذرهای منفرد رو به جلو از شبکههای عصبی است که به آنها اجازه میدهد بسیار سریع باشند.
MobileNet
MobileNet یک شبکه تشخیص چند جعبه تکشات است که برای اجرای وظایف تشخیص اشیا استفاده میشود. این مدل با استفاده از چهارچوب Caffe پیادهسازی شده است. خروجی مدل یک بردار معمولی است که شامل دادههای شیء ردیابی شده است.
YOLOR
YOLOR یک آشکارساز شیء جدید است که در سال 2021 معرفی شد. این الگوریتم دانش ضمنی و صریح را در آموزش مدل، بهطور همزمان اعمال میکند. بنابراین YOLOR میتواند یک نمایش کلی را بیاموزد و چندین کار را از طریق این نمایش کلی انجام دهد. دانش ضمنی از طریق همترازی فضای هسته، اصلاح پیشبینی و یادگیری چندوظیفهای در دانش صریح ادغام میشود. از طریق این روش، YOLOR به نتایج بسیار بهبود یافتهای در تشخیص اشیا دست مییابد.
در مقایسه با سایر روشهای تشخیص شیء در معیار داده COCO، MAP YOLOR 3.8درصد بالاتر از
PP-YOLOv2 در همان سرعت استنتاج عمل میکند و در مقایسه با Scaled-YOLOv4، سرعت استنتاج به 88 درصد افزایش یافته است که به این ترتیب در حال حاضر، آن را به سریعترین آشکارساز شیء در زمان واقعی تبدیل میکند.
تشخیص اشیا در سیستمهای نظارت تصویری
کاربردهای بعدی Deep Learning Object Detection چیست؟
تشخیص اشیا یکی از اساسیترین و چالش برانگیزترین مسائل در بینایی کامپیوتر است و احتمالاً بهعنوان مهمترین تکنیک بینایی کامپیوتری، در سالهای اخیر مورد توجه زیادی قرار گرفته است. بهویژه با موفقیت روشهای یادگیری عمیق که در حال حاضر بر روشهای تشخیص پیشرفته، چیره شده است.
یکی از موارد استفاده از تشخیص اشیا، تشخیص محصول است که عمدتاً توسط خردهفروشان برای بهبود کارایی عملیاتی و صرفهجویی در هزینهها استفاده میشود. روشهای تشخیص محصول، فرایند شناسایی و طبقهبندی محصولات را با استفاده از الگوریتمهای هوش مصنوعی با یادگیری عمیق خودکار میکنند.