Elektronické knihy - tvorba a příprava

JULIANNE --- --- 22:53:13 17.5.2020

Máte někdo zkušenost s tím, že Calibre při konverzi html (nebo rtf, odt - zkoušela jsem to vše) vytváří chapter break nejen před nadpisem (styl heading 1, 2), ale i po něm? Ve výsledku to pak dělá -chapter break- *Název kapitoly* -chapter break- *autor*. Nemůžu nikde dohledat, co s tím.

(A před jednotlivými kapitolami ještě přidává 1., 2., apod. Ve zdroji to není.)

ZOIDBERG --- --- 19:48:56 25.4.2019

MA747: Už o něm sháním informace od uživatelů.

MA747 --- --- 19:02:18 25.4.2019

1 odpověď +1

ZOIDBERG: OpticBook (z ebay)?

MARTY63 --- --- 16:57:58 25.4.2019

PULKA: Jak jsem se díval, tak nejbližší " rozumný"překlad je "citace z textu". Ale obecně se to asi nepřekládá.

MICKEY_MOUSE --- --- 7:05:25 25.4.2019

ZOIDBERG: Aha, pardon, to jsem přehlídl.

ZOIDBERG --- --- 4:31:06 25.4.2019

1 odpověď

MICKEY_MOUSE: Již není v prodeji .

MICKEY_MOUSE --- --- 20:31:55 24.4.2019

1 odpověď

ZOIDBERG: Tohle není on? https://www.mall.cz/...-9000f-4207b009?gclid=EAIaIQobChMIq8L9ta7p4QIViOd3Ch0UKwNEEAAYASAAEgI-1vD_BwE

ZOIDBERG --- --- 20:17:53 24.4.2019

2 odpovědi

S hrůzou jsem zjistil, že nabídka skenerů se brutálně zredukovala. Můj HP4010 už půjde do šrotu, ovšem předpokládaný nástupce Canoscan 9000 už není v nabídce… nějaké nápady?

PULKA --- --- 14:37:21 25.2.2019

1 odpověď

Ahoj, není tady někdo sazeč, co by měl český ekvivalent anglického pullquote? Ve smyslu té citace, která je vyňata z obsahu (často i vizuálně třeba na stranu v novinách)? Pátrám a zatím marně, tak mne napadá zkusit nějaké DTP related auditko, snad to není OT.

FERRYH --- --- 19:00:53 5.10.2018

MEMNON666: ja jeste docela dbam na to aby v abbbyy FR pred exportem do souboru (skenbook djvu nebo pdf a docx na ebook) bylo co nejmene chyb OCR ... da to praci, ale pak je zas kvalitni i ten text pod obrazkama v djvu a jinejch skenbokach a dobre se v tom vyhledava, kdyz se dela korektura v docx ebooku podle skenu... ale kazdej ebookar ma svuj zabehany system a profil... chce to zkusit co vyhivuje nejlepe...

jinak s tim abbyy a sedym pozadim bez kontrastu to je pravdapravdouci... a take to 300dpi max a 200dpi min. 600DPI uz je mnohem vic chybove a mensi DPI ztake... 300 je zlata stredni cesta u beletrie se takto nejlepe dela to OCR a je tam nejmene chyb... cim starsi je ta kniha a ma vice nekvalitni papir a skvrn, tak tim lepe se pak OCR, kdyz je hodne sedive pozadi - teda papir...
skenbook z tohodle pak neji problem udela dodatecne kontrastni tim, ze se pouzije treba Scantailor na upravu tech skenu....a vyslednej sken se pouzije na peknej kontrastni, kvalitni skenbook... umi to i mix barevne a sede s cernobilym textem 600DPI
jinak ten postup zminenej MEMNON666: mas celej popsanej tady a jsou tam i ty makra do worda:
http://santiago.wz.cz/stranky/tipy.html

MUXX --- --- 16:01:47 5.10.2018

MEMNON666: Posledne jsem mel stesti na knihu. Udelal jsem skeny, ale lezelo mi to skoro rok v pocitaci. Tak jsem to vzdal a hodil to na xtrance s tim, ze to casove nedavam Za tyden mi to nekdo poslal hotove ve wordu.

MEMNON666 --- --- 15:15:44 5.10.2018

3 odpovědi

MUXX: jednotný návod k digitalizaci je podobný hlavolam - kde záleží jaký máš cíl a co digitalizuješ - pokud to zobecním na beletrii tak nejjednodušší postup (na kterém se také velmi pravděpodobně neshodneme .) ) je plus mínus takový - skenování v ABBYY FR 300DPI šeď (výhodou jsou slovníky) zde provést ruční kontrolu a případně ořez/úpravu rozpoznávaných oblastí, po OCR - export do upravitelného formátu a PDF/DJVU (pro korekturu stačí takto)
dále už ve Wordu se santiago/quinta makry - odstranění textových polí+Odstranění stylů+Základní úprava textu+(Nahrazení odrážek a číslování+Nahrazení tabulátorů+Spojování stránek a řádků+Spojování odstavců)
potom Slovníková nahrazení a Kontrolní makra, v dalším kroku projet postupné místa označená kontrolou pravopisu a lehké naformátování nadpisů apod. - takhle se podle mě dostaneš +- spolehlivě do čitelného stavu "Oprava po OCR" a pokud chce někdo lepší verzi tak má k dispozici náhledové skeny a použitelný zdrojový text :)

(za případné chyby a úmyslná/nechtěná zjednodušení se omlouvám)

MUXX --- --- 7:45:51 5.10.2018

KRAMERIUS: To jsem mel minule asi spatne. Vysoky kontrast a vysoke dpi, OCR mi pak v kazde spine hledalo hacek nebo carku a mel jsem z toho dost opravovani. No snad mi to tentokrat pujde lip.

ERGOSUM --- --- 23:32:09 4.10.2018

KRAMERIUS: Já už nějakou dobu neskenuju, ale fotím a tam to chce nastavit EV aby nebyl šedý papír. Postprocesing nedělám(snad mimo ořezů, ale často mám uložené surové snímky).

KRAMERIUS --- --- 23:18:56 4.10.2018

2 odpovědi +2

ERGOSUM: Dle praktické zkušenosti příliš kontrastu FineReaderu při OCR vadí - má pak horší výsledky než u přirozeně naskenovaných stránek bez nějakého postprocesingu.

ERGOSUM --- --- 23:11:01 4.10.2018

1 odpověď

MUXX: Sám OCR nedělám, ale třeba tady
Free Online OCR - Frequently Asked Questions
https://www.onlineocr.net/service/faq
jim stačí 200DPI
Na OCR je důležité, aby text byl kontrastní a nebyly tam stíny. Udělat si z kusu papíru masku kolem knihy je dobré na oči a kvalitě to též pomůže.

KRAMERIUS --- --- 23:07:46 4.10.2018

MUXX: 300 v odstínech šedé by mělo být OK.
Pokud jsou tam barevné obrázky tak ty stránky samozřejmě barevně.
Já obvykle skenuju přímo do FineReaderu, celou knihu přejedu na automat v odstínech šedé, pak ručně vybrané stránky barevně a v FR projektu pak v sekvenci stránek ty šedé nahradím barevnými - a nakonec to celé přejet OCR a vyexportovat v DJVU (obrázky s OCR vrstvou) a do Wordu (text).

MUXX --- --- 21:40:15 4.10.2018

3 odpovědi

Chtel bych vyrobit e-knihu z jedne starsi knihy, ktera se neda moc sehnat. K dispozici budu mit Plustek Optibook na skenovani, ale potreboval bych poradit vhodne nastaveni. Predpokladam, ze nejlepsi format je PNG/TIFF, ale jake mam zvolit dpi, aby si s tim OCR pak v pohode poradilo? 300dpi nebo radsi 600dpi?

MA747 --- --- 12:04:22 2.9.2018

MA747: Pokud by to někomu náhodou přišlo vhod: Nenašel jsem SW, který by to uměl, proto jsem napsal skript, který "rozbije" dvě PDF na entity/objekty, identifikuje v nich obrázky a překopíruje je z "malé ostré" verze do "velké neostré s textovou vrstvou", vše složí a zapíše zpět. Kupodivu to funguje (asi je potřeba při uložení v A.F.R. zachovat stejnou velikost dokumentů). Skript je v PoC kvalitě a je napsaný pro konkrétní PDF, proto nemusí být univerzální.

MA747 --- --- 10:58:57 27.8.2018

ERGOSUM: díky za tip, vyzkouším. Nepřesný OCR text pod je jen jakýsi bonus. Důvody jsem popsal zde.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?