1 / 17

Съдържание

Доклад на тема: Подходи за разпознаване статични пози на ръка в произволна среда докторант: Надежда Златева. Съдържание. Ръката – средство за комуникация Приложение Проблеми при разпознаването Сензорни подходи Визуални подходи Разпознаване на статични знаци Проектирани Ойлерови Ъгли

karsen
Download Presentation

Съдържание

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Доклад на тема:Подходи за разпознаване статични пози на ръка в произволна средадокторант: Надежда Златева

  2. Съдържание • Ръката – средство за комуникация • Приложение • Проблеми при разпознаването • Сензорни подходи • Визуални подходи • Разпознаване на статични знаци • Проектирани Ойлерови Ъгли • Метод на дълбочинните ръбове • Okapi-Chamfer Matching • Elastic Graph Matching • Заключение

  3. Ръката – средство за комуникация(3/16)

  4. Приложение (4/16) Автоматичното определяне очертанията (позата) на ръката е съществено при практически приложения като видео наблюдение, разпознаване на жестове, мултимодални машинни интерфейси – приложения в сферата на Взаимодействие Човек-Машина, боравещи чрез конкретен жестов команден език.

  5. Приложение(5/16) • Обучение на ново поколение интелигентни роботи, които да се учат как да боравят с обекти в дадена среда, като наблюдават как хората манипулират тези обекти. Визира се тези роботи да вземата самостоятелно решения адаптирайки се към средата. Изисква се: • наличие на изчерпателен модел на съответното обкръжение и среда и най-вече на хората и поведението им в нея. • умение за разпознаване и интерпретация на реч, жестове или емоции • Допълнителна модалност в интелигентни домове и среди • Разпознаване езика на глухонемите • Дистанционно представяне на презентации • Реализация на високо стерилни среди, където докосването на екран, клавиатура или мишка е немислимо, а работа в реално време е задължителна.Такъв тип среда е хирургичната зала, където се налага многократно анализиране на скенерни и томографски изображения. • Виртуални среди

  6. Проблеми при разпознаването (6/16) • Разпознаване жестовете на ръката е комплексна задача за компютрите: • ръката има около 27 степени на свобода в 3D пространството • съществуват вариации във формата, размера и цвета на кожата при различните хора • осветеността на сцената и комплексността на средата, в която се движи ръката, влияят допълнително

  7. Проблеми при разпознаването (7/16) • При изграждането на визуална система за локализиране на ръка и разпознаване на нейната поза трябва да се имат в предвид следните предизвикателства: • локализиране на дланта • дискриминиране на конфигурации с висока степен на препокриване на пръстите • изграждане на цветови модел, значително гъвкав по отношение на различните цветове на кожата– намаляване влиянието на осветеността и сенките върху сцената • оценяване вероятността даден район от сцената да принадлежи на кожата • определяне на съществени характеристични точки на ръката • инвариантност по отношение на транслация, ротация, скалиране • адекватно решение при препокриване на съществена част на ръкатаот ръкав на дреха • избиране на позиция на камерата и общия ъгъл на снимане на ръката; точна калибровка или стабилност спрямо позицията и ориентацията на камерата • бързодействие, с цел приложимост в реално време • устойчивост по отношение на вариациите във формата, размера и ориентацията на дланта • устойчивост на сложен, многоцветен фон В зависимост от конкретното приложение и реализация, е възможно приемане на леки допускания за сцената, ръката и камерата.

  8. Сензорни подходи (8/16) Използват се преки механизми – набор от комерсиално налични инструментални ръкавици, сензори за прегъване, проследяване движения на ръката и тялото. Предимства: директно измерване на параметри на ръката и пръстите (ставни ъгли, въртене на китката и 3D пространствена информация), получаване на данни с висока честота на наблюденията, избягване на проблеми с препокриване. Недостатъци: намалена област на движение и комфорт, висока цена на прецизните системи VPL DataGlove (1987) - fiber-оптични сензори за измерване ъглите на прегъване на пръстите. Необходимо е прекалибриране за всеки индивидуален потребителза точно възпроизвеждане на жестовете. CyberGlove(2008)- 18 или 22 сензора за прегъване; измерват с висока точност до 22 ставни ъгли, отклонението на пръстите и китката, преминаването на палеца, извиването на дланта и китката. Приложение в анимацията и биомеханиката на виртуални среди AcceleGlove(2002) – „механични скелети” или сензорни пръстени, разположени директно върху ставите на дланта. Сензорите са двуосови акселерометри, дават информация за формата на ръката и нейната ориентация, за позицията по отношение на гравитационния вектор. Независима е по отношение размера на ръката.

  9. Визуални подходи (9/16) Използват една или повече камери за получаване изображения на ръката, които се интерпретират до извличане на визуални характеристики за разпознаване на жестове. Най-често използваните техники за разпознаване са: анализ на 3D модел на ръката, анализ с използване на маркери и маркирани ръкавици, и анализ базиран на характеристики на изображението. Предимства: жестикулиращият остава необременен с външни уреди Недостатъци: комплексни изчислителни изисквания за извличане на използваема информация, проблеми с препокриване на пръсти, чувстителност към осветеността. • Подходи за разпознаването на статични знаци: • сравняване с еталони; - класифициране по геометрична характеристика; - невронни мрежи; - стандартни методи за разпознаване на образци за класифициране Подходи за разпознаването на динамични жестове: - времево компресиращи образци; - динамично изкривяване на времето; - скрити марковски модели (HMM), - Бейсови мрежи

  10. Разпознаване на статични знаци – подход с Проектирани Ойлерови Ъгли (10/16) • За знаци, формулирани с издадени напред пръсти. Базиран на 2D проекция на Ойлерови Ъгли. Допуска че ръката е разположена фронтално-паралелно на камерата, равномерно осветена, заема значителна част от изображението и е в сравнително изправено положение. • Стъпки: (30ms, 91% разпознаване в 105 изображения) • локализиране областта на ръката с Гаусов цветови модел; изчисляване вероятността пиксел да принадлежи на кожата на ръката • оконтуряване на ръката – най-големия свързан компонент в бинарното изображение • определяне на характерните точки (по кривината на контура), полигона на дланта и приблизителния й център • изчисляване проектираните Ойлерови ъгли– 2n+1 мерен характеристичен вектор (n=брой издаден пръсти) • класифициране по Евклидово разстояние за намиране на най-близкия жест в същото мерно пространство

  11. Разпознаване на статични знаци – метод на Дълбочинните ръбове (11/16) • Мулти-флаш камера със стратегическо позициониране на светкавиците - разположени на малка дистанция от камерата; хвърлят сенки по дълбочинните прекъсвания на сцената. Позволява построяването на карта на дълбочинните ръбове на база на сенките,като снима един обект, осветен от различни позиции. Адресира проблема за надеждност при сложни / припокриващи се конфигурации на пръстите. • Стъпки: (20ms за сегментирани изобр., 96% при 72 изображения) • Изчисляване максималното съставно изображение Imax • Изчисляване изображенията на отношението и общо изобр. на ръбовете • Изчисляване контекстен описател на формата • Класифициране по метода на най-близкия съсед

  12. Разпознаване на статични знаци – метод на Дълбочинните ръбове (12/16) Методът не открива ръбове при границите на пръстите, където няма дълбочинно прекъсване => по-уникално описание за всяка дактилна буква. Елиминира текстурни ръбове (бръчки, петънца, вени)=> по-устойчив на вариациите при ръцете на различни хора. Работи се по вариант за използване на светкавици с различни цветове, които да се включват едновременно. Фокусира разпознаването на динамични жестове.

  13. Разпознаване на статични знаци - Okapi-Chamfer Matching (13/16) Проблема за разпознаване на статична поза на ръката се формулира в проблем за извличане на текст: локалните визуални характеристики се третират като терми, обучаващите изображения като документи, а входните изображения като заявки. Всяко изображение се описва със своите терми и относителната им пространствена информация. Използва се обратно индексиране за осъществяване достъп и търсене на подобие единствено в документи (изображения), съдържащи термите на заявката. Построява се лексикон от локални визуални характеристики чрез клъстеризиране на характеристики, извлечени от обучаващите изображения (на база на 3D кинематичен мрежов модел на ръката). • Стъпки: • Сегментиране областта на ръката чрез хистограми на цвета на кожата(от ръчно сегментирани изобр.) • Бинаризация и разделяне на подпрозорци с размери 24x24 пиксела(пикселите в прзорците трябва да са между 20-80%) • За всеки прозорец се извличат визуални характеристики (локален дескриптор) и се квантуват на базата на лексикона. • Изчисляване коефициентите на подобие с обучаващите изображения: комбинация на модифицирана Okapi теглова формула и Chamferdistance. Подхода сравнява групи от локални характеристики и по този начин е по-устойчив при неточно сегментиране на ръката.

  14. Разпознаване на статични знаци – Elastic Graph Matching (14/16) Представя различните изгледи на обектите като маркирани графи с двумерна топология. Възлите на графа са маркирани с локално описание на изображението, а ребрата – с вектор на разстоянието. Еластичното сравнение на модел на граф с входно изображение e търсене на този набор от позиции на възлите, така че: 1) локалното описание свързано с всеки възел да е подобно на областта от изображението около позицията, в която е сложен възела и 2) графа не е много изкривен. GaborJet - локално описание на изображението;уейвлет трансформация с комплексни филтри на Габор; комплексен вектор, съставен от 24 отговора на комплексни филтри (с 3 различни размера и 8 ориентации). За сравнение на jet-овете на графа с точки от изображението се изчисляват jet-овете за всяка точка от изображението и се сравняват с тези на графа. Използват се две функции на подобие. Bunch-Graph (куп от графи) - отразява естествената променливост в jet-овете на съответните точки в няколко изображения. Всеки възел се маркира с колекция от jet-ове вместо само с един.

  15. Разпознаване на статични знаци – Elastic Graph Matching (15/16) • Създаване модел на графа на дадена поза: • Задава се ръчно; за възли се избират позиции, които лежат на ръба на ръката и при високо текстурни места в нея • Всяка поза се показва от три различни физически лица и се заснима върху светъл и тъмен фон. • Ръчно моделирания граф при първото изображение се поставя върху всяко следващо изображение като начално предположение и при необходимост се донаглася, така че възлите да попадат върху коректни части на ръката. Стъпки за сравняване на граф с входно изображение: Грубо позициониране на графа; сканиране на изображението на груби стъпки от по 5 пиксела в двете посоки и изчисляване коефициента на подобие; скалиране на графа с възможност за разширение до 20% и свиване до 10% без относителни промени в дължината на ребрата; възможност за транслиране на позицията на графа до 6 пиксела; равнинна ротация до 15º в екранната равнината и около центъра на тежестта на графа; локално разсейване на отделните възли с възможност за транслация на позицията им с един пиксел За класифицирането на изображение се изчисляват стойностите на подобие при всеки куп от графи за всички пози. Избира се позата, чийто модел на граф има най-голямо подобие. Средно време за сравнение с един граф ~1s. 86.2% разпознаване при поза в комплексна среда.

  16. Заключение (16/16) Най-добри резултати показват подходите, използващи локални характеристики на базата на формата и ръбовете,в които се запазва информацията за пространственото положение на характеристиките и в същото време осигуряват инвариантност по отношение на транслация, мащабиране и ротация в екранната равнина. Подобни подходи използват например: • разстоянието от съществени контурни точки до центъра на тежестта на ръката • скаларното пространство на кривината (CurvatureScaleSpace) • хистограми на направлението на пикселите със значителна вариация • скелета на ръката (запазва топологичната информация) Тези подходи могат да се комбинират, както и да се изследва ефективността им като различни класификатори в AdaBoost алгоритъма

  17. Библиография [1] CyberGlove (n.d.). Retrieved December 1, 2008 from www.vrlogic.com/html/immersion/cyberglove_ii.html. [2] Glove-Based Input Interfaces (n.d.). Retrieved December 1, 2008 from www.geocities.com/mellott124/glove1.htm. [3] J.L. Hernandez-Rebollar, N. Kyriakopoulos, and R. Lindeman, “The AcceleGlove: A Whole-Hand Input Device for Virtual Reality,” Proc. of ACM SIGGRAPH - 29th International Conference on Computer Graphics and Interactive Techniques, 2002. [4] B.S. Parton, “Sign Language Recognition and Translation: A Multidisciplined Approach From the Field of Artificial Intelligence,” Journal of Deaf Studies and Deaf Education, vol 11, no 1, pp94-101, Win 2006. [5] N. Adamo-Villani, J. Heisler, and L. Arns, “Two gesture recognition systems for immersive math education of the Deaf,” IMMERSCOM, Oct 10-12, 2007, Italy. [6] T. Starner, A. Pentland, “Real-time american sign language recognition from video using hidden markov models,” Technical Report MIT TR-375, Media Lab, MIT, 1996. [7] T. Starner, J. Weaver, and A. Pentland, “Real-time American Sign Language recognition using desk and wearable computer-based video,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no.12, December 1998 [8] J. Triesch and C. von der Malsburg, “A System for Person-Independent Hand Postrure Recognition against Comlex Backgrounds,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 12, December 2001 [9] H. Brashear, T. Starner, P. Lukowicz, and H. Junker, “Using Multiple Sensors for Mobile Sign Language Recognition,” In Proceedings of IEEE International Symposium on Wearable Computing, pp. 45-52, 2003. [10] R. Feris, M. Turk, R. Raskar, K. Tan, and G. Ohashi, "Recognition of Isolated Fingerspelling Gestures Using Depth Edges," In Real-Time Vision for Human-Computer Interaction, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp.43-56, 2005. [11] H. Zhou, D. J. Lin, and T. S. Huang, “Static Hand Posture Recognition Based on Okapi-Chamfer Matching," In Real-Time Vision for Human-Computer Interaction, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp. 85-101, 2005. [12] S. Chandran and A. Sawa, “Appearance-Based Real-Time Understanding of Gestures Using Projected Euler Angles," In Real-Time Vision for Human-Computer Interaction, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp. 57-66, 2005. [13] J. Napier, “Hands,” Pantheon Books, New York, 1980.

More Related