Üdvözöljük a Linux Mint fórumain!

program

[SOLVED] Program a PDF szerkesztésére és OCR-be továbbítására - szerkeszthető PDF/A

Moderátorok: tomeu, JCSenar

[SOLVED] Program a PDF szerkesztésére és OCR-be továbbítására - szerkeszthető PDF/A

Írta: matrovska »2020. február 5., szerda, 12:06

Kipróbáltam különféle segédprogramokat, beleértve a legutóbbi EvaEva linket is, a GScan2pdf-en, és erre nincs mód.

A másik alkalmazás, amelyet akkor konfiguráltam, a GImageReader volt (a tesseract függőségeivel is egy oktatóanyag követése után). A programban az a jó, hogy felismeri a szövegblokkokat, sőt automatikusan felismeri az elrendezést, és elforgatja a nem teljesen egyenes oldalakat.

Ennek ellenére ezt a pillanatot lehetetlennek hagyom, mivel számos tényező befolyásolja a programok és az észlelés korlátozását, és az OCR, például az összetett beolvasott adminisztrációs űrlapok, különféle dobozokkal és blokkokkal

Azzal, hogy az OCR ezekhez a formákhoz nem optimális, és több hibája van, mint találata, szégyen.

Re: Program OCR szövegből szerkeszthető szöveggé konvertálásra. -

Írta: tomeu »2020. február 6., csütörtök, 3:31

sudo apt install ocrmypdf

A terminál parancsaiból be, de nem csak a legjobb (nagyon szerény véleményem szerint), hanem abszolút hatékony is.

Re: Program OCR szövegből szerkeszthető szöveggé konvertálásra. -

Írta: matrovska »2020. február 7., péntek 11:11

A számomra ebben a vizsgálatban megfelelő paraméterek a következők:

Re: Program a pdf szerkesztésére és OCR-be konvertálására - szerkeszthető PDF/A

Írta: tomeu »2020. február 11., kedd, 6:25

Ezt a szálat azért választottam el az előzőtől, mert úgy vélem, hogy nem pontosan ugyanarra utal, és 2016-ból származik.

Továbbra is beszélünk az ocrmypdf-ről, de mivel idézi a weboldalát, csak most kommentelje, hogy frissítettem a 9.5-ös verzióra, és a minősége jobb, és mindenekelőtt nem teszi a fájlokat túlsúlyossá, de szinte azonos.

Re: Program a pdf szerkesztésére és OCR-be konvertálására - szerkeszthető PDF/A

Írta: matrovska »2020. február 11., kedd, 7:43

Telepítettem a CLI alkalmazást a Linux Mint adattárakból, amely a 6.1.2-es verzióval fut (az interneten futó Ubuntu 18.04 vagy újabb verzióhoz).

Az aláírási linux mintámból hogyan tudom telepíteni az általad említett 9.5-ös verziót?.

Re: Program a pdf szerkesztésére és OCR-be konvertálására - szerkeszthető PDF/A

Írta: tomeu »2020. február 11., kedd, 8:06

szerkesztette: rohadt! Minden követett lépést megtettem, és leváltottam, amellyel az üzenet elveszett.

Re: Program a pdf szerkesztésére és OCR-be konvertálására - szerkeszthető PDF/A

Írta: tomeu »2020. február 11., kedd, 11:12

Megpróbálom helyreállítani (de összefoglalva):

1) Telepítettük az ocrmypdf fájlt az apt-tal vagy szinaptikus. Ha van L.Mint 19. * (ubuntu 18.04), akkor lesz a 6.1.4 verzió

2) Telepítjük a használni kívánt nyelvi fájlokat:
tesseract-ocr és tesseract-ocr - *** ahol *** azok a nyelvek, amelyeket használni akarunk vagy használni fogunk a dokumentumainkban (gyógyfürdő, macska, angol)

3) Az opcionális csomagok közül eltekintek a 'jbig2enc'-től, amely nincs a tárakban, és telepítem a' pngquant 'és' unpaper 'elemeket, mert a szükséges verziók vannak, és kihasználhatják a.

4) Telepítjük a pip új verzióját:

Újraindítás és az ocrmypdf --version parancs megadása után ennek ki kell jönnie: 9.5.0.post1 + g6f66232

A 9.5 verzió előnyei a tárházhoz képest:

1.- Korábban, ha egy pdf dokumentum része szerkeszthető volt, és egy része nem, akkor hozzá kellett adnia a - Force-ocr parancsot, most már nem kért tőlem .

2.- Az eredmény minősége javult.

3.- Mielőtt egy sor változatot kellett volna feltennie, a dokumentumtól függően írja be:
ocrmypdf --nyelvfürdő --rotate-pages -deskew --force-ocr --clean-final document.pdf document-ocr.pdf
Most elég:
ocrmypdf document.pdf document-ocr.pdf

4.- Mielőtt egy minőségi eredménnyel rendelkező dokumentum 100-ról 600 Mb-ra nőtt volna, most egy 100 Mb-os dokumentum csak kissé nehezebb (kb. 120 Mb)