OCR

Kako pokrenuti tesseract na GIF datoteci u Linuxu

Kako pokrenuti tesseract na GIF datoteci u Linuxu
Tesseract je OCR (Optical Character Recognition) sustav, među najboljima. OCR softver sposoban je razumjeti tekst sa slika i skeniranih dokumenata (uključujući rukopis ako ga trenirate). OCR sustav može biti koristan za mnoge zadatke kao što su brojanje riječi skeniranih dokumenata, automatska transkripcija, pretvorba znakova sa slike u tekst i još mnogo toga.

LinuxHint je već objavio vodič koji objašnjava kako instalirati i razumjeti Tesseractovu obuku.

Ovaj vodič prikazuje postupak instalacije Tesserakta u sustavima Debian / Ubuntu, ali se neće proširiti na funkcionalnosti treninga, ako niste upoznati s ovim softverom, čitanje spomenutog članka može biti dobar uvod.  Tada ćemo vam pokazati kako obraditi GIF sliku s Tesseractom kako biste iz nje izvukli tekst.

Instalacija Tesseract-a:

Trčanje:

apt instalirati tesseract-ocr

Sada morate instalirati imagemagick koji je pretvarač slika.

Jednom instaliran, već možemo testirati Tesseract, kako bih ga testirao, pronašao sam gif licenciran za ponovnu upotrebu.

Sad da vidimo što se događa kada pokrenemo tesseract na gif slici:

tesseract 2002NY40.gif 1rezultat

Sada napravite "manje" na 1 rezultat.txt

manje 1 rezultat.txt

Evo slike s tekstom:

U ovom su Tesseract-u zadane postavke prilično točne, obično je za takvu točnost potreban trening. Pokušajmo s još jednom besplatnom slikom koju sam pronašao na Wiki Commonsu, nakon što je preuzmem:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2rezultat

Sada provjerite sadržaj datoteke.

manje 2 rezultat.txt


To je bio rezultat dok je sadržaj izvorne slike bio:

Kako bismo poboljšali prepoznavanje znakova, imamo mnogo opcija i koraka koje je trebalo slijediti, a koji su detaljno opisani u našem prethodnom vodiču: uklanjanje obruba, uklanjanje šuma, optimizacija veličine i rotacija stranice među ostalim funkcijama poput obrezivanja.

Za ovaj tutorial koristit ćemo textcleaner, skriptu koju su razvili Fred's ImageMagick Scripts.

Preuzmite skriptu i pokrenite:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif test.gif

Bilješka: prije pokretanja skripte dajte joj dozvole za izvršavanje pokretanjem “chmod + x čistač teksta”Kao korijen ili sa sudo prefiks.

Gdje:

čistač teksta: poziva program

-g: Pretvori sliku u sive tonove

-e: enache

-f: veličina filtra

-s: sharpamt, količina izoštravanja piksela koja se primjenjuje na rezultat.

Za informacije i primjere upotrebe s programom za čišćenje teksta posjetite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Kao što vidite, textcleaner je promijenio boju pozadine, povećavajući kontrast između fonta i pozadine.

Ako pokrenemo tesseract, vjerojatno će rezultat biti drugačiji:

test tesseract.gif testoutput

manje izlazne snage

Kao što vidite rezultat se stvarno poboljšao čak i kad nije u potpunosti točan.

Naredba Pretvoriti koje pruža imagemagick omogućuje nam izdvajanje okvira iz gif slika koje će kasnije obrađivati ​​Tesseract, ovo je korisno ako u različitim okvirima gif slike ima dodatan sadržaj.

Sintaksa je jednostavna:

Pretvoriti

Rezultat će se generirati kao broj datoteka kao okviri u gifu, u navedenom primjeru rezultati će biti: izlaz-0.jpg, izlaz-1.jpg, izlaz-2.jpg, itd.

Tada ih možete obraditi tesseractom, nalažući mu da obradi sve datoteke s zamjenskim znakom spremajući rezultat u jednu datoteku pokretanjem:

za i u izlazu- *; napraviti tesseract $ i outputresult; gotovo;

Imagemagick ima široku paletu opcija za optimizaciju slika i ne postoji generički način rada, za svaku vrstu scenarija trebali biste pročitati stranicu naredbe convert za naredbu.

Nadam se da vam je ovaj vodič o Tesseractu bio koristan.

Kako instalirati League Of Legends na Ubuntu 14.04
Ako ste ljubitelj League of Legends, ovo je prilika za vas da testirate League of Legends. Imajte na umu da je LOL podržan na PlayOnLinux ako ste kori...
Instalirajte najnoviju strategiju igre OpenRA na Ubuntu Linux
OpenRA je Libre / Free Real Time strateški pokretač igre koji stvara rane Westwoodove igre poput klasične Command & Conquer: Red Alert. Distribuirani ...
Instalirajte najnoviji Dolphin Emulator za Gamecube i Wii na Linux
Dolphin Emulator omogućuje vam igranje odabranih Gamecube i Wii igara na Linux osobnim računalima (PC). Dolphin Emulator je slobodno dostupan i emula...