1 / 44

Kézzel írt szöveg normalizálása

Kézzel írt szöveg normalizálása. Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08. A karakter felismerés két fő módja. Online-felismerés:. kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség

gaurav
Download Presentation

Kézzel írt szöveg normalizálása

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kézzel írt szöveg normalizálása Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08.

  2. A karakter felismerés két fő módja Online-felismerés: • kisebb erőforrás igény • processzor idő • memória • több adat az inputról • sebesség • sorrendiség • toll nyomásának erőssége • valós időben kell feldolgozni Offline-felismerés: • csak a szöveg képe áll rendelkezésre • több idő áll rendelkezésre a feldolgozáshoz Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  3. A kézzel írott szöveg típusai Izolált karakterek: Nyomtatott írás: Folyóírás: http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  4. A felismerési technológiák fejlődése: http://www.parascript.com/company2/tech_overview.cfm Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  5. Alkalmazási területek Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  6. Input képek http://www.iam.unibe.ch/fki/databases/iam-handwriting-database

  7. Az input képek tulajdonságai • angol nyelv • folyóírás • 1539 beolvasott oldal • 657 különböző ember által • több féle különböző tollal • 15 különböző téma • 115 320 szó, és „megoldásaik” • Felépítése: • SentenceDatabase felirat és az űrlap sorszáma • a leírandó szöveg nyomtatva • a kézzel írt szöveg helye • az aláírás helye Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  8. A felismerés lépései • a dokumentum binarizálása • a dokumentum elforgatása • a kézzel írt rész behatárolása • a sorok kinyerése • a sorok normalizálása • a jellemzők kinyerése • a jellemzők feldolgozása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  9. Binarizálás Eredeti • a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt Otsu Isodata Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  10. Otsubinarizálás - hisztogam alapú binarizálás Y: előfordulások darabszáma X: intenzitás mértéke Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  11. A dokumentum elforgatása • például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót) • az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak [1] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  12. A dokumentum elforgatása Fourier transzformációval: • Fourier transzformáció • Gamma korrekció és kontraszt növelés • Binarizálás magas küszöbbel • A középső és a legalsó pont x koordinátabeli különbségének meghatározása Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  13. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  14. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  15. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  16. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  17. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  18. A kézzel írt rész behatárolása • Megvizsgált módszerek: • Hough transzformáció (vonalkeresés) • Vízszintes projekció • Kontúrkeresés majd behatároló téglalap számítás Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  19. A kézzel írt rész behatárolása Hough transzformációval: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  20. Vízszintes projekcióval: Fekete-fehér váltások száma: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  21. Szürkeskálás kép projekciója: Binarizált kép projekciója: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  22. Binarizált kép projekciója: Simított: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  23. Vonalak megtalálása kontúrkereséssel A befoglaló téglalapok meghatározása: Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  24. Vonalak megtalálása kontúrkereséssel Az aláírás rálóg a vonalra: Az utolsó sor rá van írva a vonalra: • Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor • Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  25. A sorok kinyerése • szintén vízszintes hisztogram • a völgyeknél lesz az elválasztó vonal • átlógó vonások problémája [2] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  26. A sorok kinyerése A simított vizszintes projekción meghatározott csúcsok által: A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  27. A sorok kinyerése Kontúrkeresés és befoglaló téglalapok: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  28. A sorok kinyerése Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján

  29. A sorok kinyerése Egybelógó sorok problémája: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  30. A sorok elforgatása • oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa) • ezen helyek felhasználása a lineáris regresszióban • megkapjuk az írás alapvonalát • ennek ferdesége alapján forgatjuk el a sort Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  31. A sorok elforgatása Egyszerű lineáris regresszió Kendall-Theil Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  32. Az írás dőltségének megszüntetése • itt függőleges hisztogramot készítünk a sorokról • fokonként nyíró transzformációval forgatunk • ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok [3] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  33. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  34. Az írás dőltségének megszüntetése Globális dőlésszög meghatározással: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  35. Sorok régióinak meghatározása és normalizálása • ki kell számolni a horizontális projekció deriváltját • venni kell az értékek közül a legnagyobb 20%-ba tartozókat • ezeknek a súlypontját ki kell számolni • az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél [4] Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  36. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  37. A betűk szélességének normalizálása • az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes) Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  38. A betűk szélességének normalizálása • a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása • ez a darabszám jó becslést ad arra mennyi betű lehet a sorban • ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  39. A kép intenzitásértékeinek normalizálása • A kép intenzitásértékeinek széthúzása 0-255 tartományba: Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  40. A jellemvektor • offline-felismerés esetén 9 jellemző • a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, • a pixelek súlypontja, • a pixelek másodrendű súlypontja, • a legfelső és legalsó pixelek helye, • ezen helyek változásának mértéke a környező ablakokhoz képest, • az előtér és háttér váltások száma a legfelső és legalsó pixelek között, • az előtér pixelek eloszlása a legfelső és legalsó pixelek között. • online-felismerés esetén 25 jellemző • a fenti jellemzők mellett még pl.: • a toll nyomásának mértéke • a tollvonás sebessége • az előző és következő időkeretben lévő pontokkal bezárt szög • az előző és következő időkeretben lévő pontok közti távolság • stb. Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  41. A jellemvektorok időkeretenként Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  42. Kitekintés A jellemvektorok felhasználása: • A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően: • Rejtett Markov Modellek (HiddenMarkovModels - HMMs) • Mesterséges Neuronhálózatok (ArtificialNeuralNetworks – ANNs) • A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés • Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  43. Irodalomjegyzék • [1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skewangleestimationfor printed and handwrittendocumentsusingtheWigner-Villedistribution”, Image and VisionComputing 20, 2002, pp. 813-824 • [2] R. Manmatha és J. L. Rothfeder, „A ScaleSpaceApproachforAutomaticallySegmenting Word fromHistoricalHandwrittenDocuments”, IEEE TransactionsonPatternAnalysis and MachineIntelligence, vol 27, no. 8, 2005, pp. 1212-1225 • [3] M. Pastor, A. Toselli és E. Vidal, „Projection ProfileBasedAlgorithmforSlantRemoval”, Image analysis and recognition: internaionalconference, ICIAR 2004, part 2, 2004, pp. 183-190 • [4] M. Schüßler és H. Niemann „A HMM-based System forRecognition of HandwrittenAddressWords”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

  44. Kérdések Köszönöm a figyelmet Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

More Related