70 likes | 260 Views
Các phụ lục. Tesseract Tìm tư ̀ gần đúng Mã hóa dư ̃ liệu. Kiến trúc Tesseract. Lịch sử Tesseract. Được phát triển tại HP từ 1984 đến 1994. 1995 đoạt top 3 phần mềm OCR của UNLV Sản phẩm không thể thương mại được vì tính cồng kềnh .
E N D
Các phụ lục • Tesseract • Tìmtừ gầnđúng • Mã hóadữ liệu
LịchsửTesseract • Đượcpháttriểntại HP từ 1984 đến 1994. • 1995 đoạt top 3 phầnmềm OCR của UNLV • Sảnphẩmkhôngthểthươngmạiđượcvìtínhcồngkềnh. • 2005 Chuyển sang mãnguồnmở, dựánđược Google tàitrợvàcộngđồnglậptrìnhviên. • Phiênbảnmớinhất 3.01 hỗtrợtrên 40 ngônngữ • Cókhánănghuấnluyệnngônngữvà font mới
Top 3 phầnmềm OCR tại UNLV • CaereOCR : http://www.dataid.com/ocrprodoverview.htm • XIS OCR engine • Tesseract OCR
Tìm từ gần đúng Từcầnxửlý Thaythếtừngkýtự Dữ liệu có trongtừ điểnkhông? Đúng Đưavàodanhsáchtừgầnđúng Hiểnthịdanhsáchtừchọnlựa
Tìmtừgầnđúng Từcầnxửlý Lấytấtcáccáctừcùngđộdàitừcầntra TínhkhoảngcáchLeveinsteinvàlấycáctừcó d =1 Hiểnthịdanhsáchtừchọnlựa
Mã hóa dữ liệu • Tại sao? • Tránh vi phạm bản quyền dữ liệu. • Bảo mật dữ liệu tránh chỉnh sửa. • Thời gian giải mã: 1 ~ 6ms