Elektronické knihy - tvorba a příprava

PEPAK --- --- 7:56:51 31.8.2012

FERRYH: Nerozumím. Vím jen o dvou způsobech, jak z PDF dostat text - číst tu textovou vrstvu, nebo OCRkovat vizuální výstup. OCR celkem pochopitelně vede na OCR chyby, textová vrstva byla ve všech mnou testovaných PDF zcela nepoužitelná. To, co píšeš, chápu tak, že existuje ještě třetí způsob vytahování textu, který nemá chyby předchozích dvou, ale nerozumím tomu, odkud tedy bere data.

FERRYH --- --- 6:58:18 31.8.2012

1 odpověď

PEPAK: ty mi nerozumis, udela to TOTEZ co udela FR kdyz dela OCR ... a ty take muzes pak udelat totez co delas TED (ulozit ... exportovat atd.) ... jen je to naprosto bez OCR chyb ... text je s 1:1 jen si formatovani udela stejne jako to je u OCR...

a pri PDF OCRkovani ten FineReader chyby dela... nerikej ze ne.. :o) je sice lepsi nez ze skenu, ale chyby tam jsou, nekdy i HODNE chyb a zakernejsich nez ty ze skenu...

PEPAK --- --- 6:05:35 31.8.2012

1 odpověď

FERRYH: K čemu by to přepínání bylo dobré? Textovou vrstvu PDF jsem příležitostně zkoumal už dříve a ještě jsem neviděl ani jeden soubor, kde by byla aspoň trochu použitelná.

FERRYH --- --- 23:59:55 30.8.2012

1 odpověď

PEPAK: zkus FR8 ... je to posledni starej finereader kterej umi prepinat nacitani textu z pdf v obou modech, teda jak native cteni textu (spatne kdyz je v pdf pouzitej starej nonUnicode font - primarne to blbne s cestinou, kdyz je to ze stareho apple nebo win95-8 pagemakera, quarkxpressu), tak pak i OCR textu pdf jako u vsech novejsich FR.

PS: JYRKA mi tvrdi, ze nejnovejsi ABBYY PDF Transformer 3 to umi take jako ta FR8 .. ale ja mu moc neverim... :o) ...vim ze ABBYY PDF Transformer byl vzdy jen orezanej Finereader a to prepinani tam nikdy nemel... a vzdy delal OCR textu pdf jako ty novejsi FR
... ovsem ruku do ohne za to nedam - ze to ten ABBYY PDF Transformer 3 nema... jsem linej to instalovat, uz tak mam tri abbyy v systemu... to mi staci, vic to zasirat nemusim :))

JYRKA --- --- 9:59:38 30.8.2012

PEPAK: poslední dobou mám super zkušenosti s Acrobatem z CS6.
Když nepočítám to, že pokud je sazeč prase, tak nepomůže nic...

PEPAK --- --- 9:57:16 30.8.2012

1 odpověď

JYRKA: Ono skoro všechno, co není běžně formátovaný text. Ale přesto je to nesrovnatelně lepší než klasická konverze (v Calibre, PDF2HTML apod.).

JYRKA --- --- 9:53:09 30.8.2012

1 odpověď

PEPAK: Děláme to tak, nicméně ligatury v tom dělají dost bordel.

PEPAK --- --- 9:47:25 30.8.2012

2 odpovědi

Lehce jsem teď zkoušel, jak pracovat s ne-obrázkovým PDF lépe než pomocí konverzí (které dávají naprosto nepoužitelné výsledky). A ukázalo se, že načíst PDF do FineReaderu a nechat to zOCRkovat jako obrázek dává u beletrie až překvapivě dobré výsledky - sem tam se naboří tok dokumentu (zejména kvůli obrázkům, které často vedou k přeházení odstavců) a je samozřejmě nutné předělat hlavičky kapitol, ale jinak mi vznikal docela parádní dokument s minimem chyb. Je to úplně nesrovnatelné s textovou vrstvou, kterou si PDF nese v sobě, a skoro bych řekl, že to je lepší než z kvalitního skenu.

KRAMERIUS --- --- 16:08:13 24.7.2012

1 odpověď

Dotaz na typografické odborníky:
Jak správně napsat iniciálu na začátku kapitoly, pokud kapitola začíná přímou řečí (s uvozovkami).
- dolní uvozovku na začátku vynechat?
- dolní uvozovku přidat do iniciály?
- jinak?

KRAMERIUS --- --- 16:04:01 4.5.2012

GALENIUS: Vymazat ho přímo v obecném nastavení Wordu (v W2010: Možnosti-Obecné-Uživatelské jméno) a pak dokument uložit.

GALENIUS --- --- 14:08:45 4.5.2012

1 odpověď

Vážení, nevíte někdo jak ve Wordu odstranit údaj o autorovi poslední změny? Přišel jsem na to, jak zrušit všechna metadata včetně autora, ale jestli jde zrušit pouze toto.

Díky

JYRKA --- --- 14:14:11 25.4.2012

EPUB Straight to the Point - Powered by Kagi
http://store.kagi.com/cgi-bin/store.cgi?storeID=6FHNX_LIVE&page=IDCS55EPUBK&lang=en

Vypadá to docela užitečně a zajímavě.

JYRKA --- --- 21:21:32 23.4.2012

No a kdo jste nečetl: http://epubsecrets.com/more-epub-resources-from-day-2-of-toc-2012.php

JYRKA --- --- 21:17:40 23.4.2012

Docela zajímavý návod: http://twitpic.com/83kweq

ARXIE --- --- 14:22:52 20.4.2012

Převádíme naskenované dokumenty a obrázky zpět na text -
http://cdr.cz/clanek/jak-prevest-obrazek-na-text

FERRYH --- --- 19:33:10 21.3.2012

no pak to je asi nesporne (pro mne) FR11 - ma nejprivetivejsi uzivatelske prostredi...

takovej Omnipage .... z toho teda lezu po zdi!@! i kdyz ma v nejakych aspektech lepsi vysledky v chybovosti OCR, tak to prostredi je tak zmrsene, a tak silene neprivetive, ze ... no proste s nim delat nemuzu.. :)) privadi me to k silenstvi... a uz to odnesla jedna chudak logitech laser myska... triskl sem s ni tak, ze uz to nerozdejchala... :))

RAINBOF --- --- 13:35:48 21.3.2012

FERRYH: no asi to bude spíš o tom který sw mi umožní nejlíp ruční opravy během OCR procesu.

FERRYH --- --- 0:07:14 21.3.2012

1 odpověď

zkus Omnipage 11 slysel sem ze math symboly umi lepe....
z OCR na abbyy fineraedru bych to ani snad nezkousel... nikdy jsem nevidel dobrej vysledek... i kdyz ma pro tohle abbyy spec jazykovou sadu... pokud to je ale v rovne radce a nevybocuje moc z radkovani, tak mozna i ten abbyy finereader 11 ...ale pochybuju... se symbolama mimo bezne radkovani ma problem... a prave proto pak take dela blbe OCR math vzorcu... jak se mu to nevejde to "index dole" a "index nahore" je v pr**** :O))

RAINBOF --- --- 13:49:26 20.3.2012

ZOIDBERG: vzhledem k tomu že se změní písmo a že vzorce jsou teď napůl rukou :)
nevěřili by jste kolik se toho dá "namalovat" na psacím stroji.

ZOIDBERG --- --- 13:44:25 20.3.2012

1 odpověď

Nevím co řekne program na ty vzorce, jestli nebude lepší je tam vložit jako obrázky. No nechtěl bych to dělat.

MR_MITCH --- --- 13:34:14 20.3.2012

RAINBOF: zkus jak to zpracuje http://www.inftyreader.org/?p=29

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?