LinuxHint je već objavio vodič koji objašnjava kako instalirati i razumjeti Tesseractovu obuku.
Ovaj vodič prikazuje postupak instalacije Tesserakta u sustavima Debian / Ubuntu, ali se neće proširiti na funkcionalnosti treninga, ako niste upoznati s ovim softverom, čitanje spomenutog članka može biti dobar uvod. Tada ćemo vam pokazati kako obraditi GIF sliku s Tesseractom kako biste iz nje izvukli tekst.
Instalacija Tesseract-a:
Trčanje:
apt instalirati tesseract-ocr
Sada morate instalirati imagemagick koji je pretvarač slika.
Jednom instaliran, već možemo testirati Tesseract, kako bih ga testirao, pronašao sam gif licenciran za ponovnu upotrebu.
Sad da vidimo što se događa kada pokrenemo tesseract na gif slici:
tesseract 2002NY40.gif 1rezultat
Sada napravite "manje" na 1 rezultat.txt
manje 1 rezultat.txt
Evo slike s tekstom:
U ovom su Tesseract-u zadane postavke prilično točne, obično je za takvu točnost potreban trening. Pokušajmo s još jednom besplatnom slikom koju sam pronašao na Wiki Commonsu, nakon što je preuzmem:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2rezultat
Sada provjerite sadržaj datoteke.
manje 2 rezultat.txt
To je bio rezultat dok je sadržaj izvorne slike bio:
Kako bismo poboljšali prepoznavanje znakova, imamo mnogo opcija i koraka koje je trebalo slijediti, a koji su detaljno opisani u našem prethodnom vodiču: uklanjanje obruba, uklanjanje šuma, optimizacija veličine i rotacija stranice među ostalim funkcijama poput obrezivanja.
Za ovaj tutorial koristit ćemo textcleaner, skriptu koju su razvili Fred's ImageMagick Scripts.
Preuzmite skriptu i pokrenite:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.gif test.gif
Bilješka: prije pokretanja skripte dajte joj dozvole za izvršavanje pokretanjem “chmod + x čistač teksta”Kao korijen ili sa sudo prefiks.
Gdje:
čistač teksta: poziva program
-g: Pretvori sliku u sive tonove
-e: enache
-f: veličina filtra
-s: sharpamt, količina izoštravanja piksela koja se primjenjuje na rezultat.
Za informacije i primjere upotrebe s programom za čišćenje teksta posjetite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Kao što vidite, textcleaner je promijenio boju pozadine, povećavajući kontrast između fonta i pozadine.
Ako pokrenemo tesseract, vjerojatno će rezultat biti drugačiji:
test tesseract.gif testoutputmanje izlazne snage
Kao što vidite rezultat se stvarno poboljšao čak i kad nije u potpunosti točan.
Naredba Pretvoriti koje pruža imagemagick omogućuje nam izdvajanje okvira iz gif slika koje će kasnije obrađivati Tesseract, ovo je korisno ako u različitim okvirima gif slike ima dodatan sadržaj.
Sintaksa je jednostavna:
PretvoritiRezultat će se generirati kao broj datoteka kao okviri u gifu, u navedenom primjeru rezultati će biti: izlaz-0.jpg, izlaz-1.jpg, izlaz-2.jpg, itd.
Tada ih možete obraditi tesseractom, nalažući mu da obradi sve datoteke s zamjenskim znakom spremajući rezultat u jednu datoteku pokretanjem:
za i u izlazu- *; napraviti tesseract $ i outputresult; gotovo;Imagemagick ima široku paletu opcija za optimizaciju slika i ne postoji generički način rada, za svaku vrstu scenarija trebali biste pročitati stranicu naredbe convert za naredbu.
Nadam se da vam je ovaj vodič o Tesseractu bio koristan.