• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    JYRKAElektronické knihy - tvorba a příprava
    JULIANNE
    JULIANNE --- ---
    Máte někdo zkušenost s tím, že Calibre při konverzi html (nebo rtf, odt - zkoušela jsem to vše) vytváří chapter break nejen před nadpisem (styl heading 1, 2), ale i po něm? Ve výsledku to pak dělá -chapter break- *Název kapitoly* -chapter break- *autor*. Nemůžu nikde dohledat, co s tím.

    (A před jednotlivými kapitolami ještě přidává 1., 2., apod. Ve zdroji to není.)
    ZOIDBERG
    ZOIDBERG --- ---
    MA747: Už o něm sháním informace od uživatelů.
    MA747
    MA747 --- ---
    ZOIDBERG: OpticBook (z ebay)?
    MARTY63
    MARTY63 --- ---
    PULKA: Jak jsem se díval, tak nejbližší " rozumný"překlad je "citace z textu". Ale obecně se to asi nepřekládá.
    MICKEY_MOUSE
    MICKEY_MOUSE --- ---
    ZOIDBERG: Aha, pardon, to jsem přehlídl.
    ZOIDBERG
    ZOIDBERG --- ---
    MICKEY_MOUSE: Již není v prodeji .
    ZOIDBERG
    ZOIDBERG --- ---
    S hrůzou jsem zjistil, že nabídka skenerů se brutálně zredukovala. Můj HP4010 už půjde do šrotu, ovšem předpokládaný nástupce Canoscan 9000 už není v nabídce… nějaké nápady?
    PULKA
    PULKA --- ---
    Ahoj, není tady někdo sazeč, co by měl český ekvivalent anglického pullquote? Ve smyslu té citace, která je vyňata z obsahu (často i vizuálně třeba na stranu v novinách)? Pátrám a zatím marně, tak mne napadá zkusit nějaké DTP related auditko, snad to není OT.
    FERRYH
    FERRYH --- ---
    MEMNON666: ja jeste docela dbam na to aby v abbbyy FR pred exportem do souboru (skenbook djvu nebo pdf a docx na ebook) bylo co nejmene chyb OCR ... da to praci, ale pak je zas kvalitni i ten text pod obrazkama v djvu a jinejch skenbokach a dobre se v tom vyhledava, kdyz se dela korektura v docx ebooku podle skenu... ale kazdej ebookar ma svuj zabehany system a profil... chce to zkusit co vyhivuje nejlepe...

    jinak s tim abbyy a sedym pozadim bez kontrastu to je pravdapravdouci... a take to 300dpi max a 200dpi min. 600DPI uz je mnohem vic chybove a mensi DPI ztake... 300 je zlata stredni cesta u beletrie se takto nejlepe dela to OCR a je tam nejmene chyb... cim starsi je ta kniha a ma vice nekvalitni papir a skvrn, tak tim lepe se pak OCR, kdyz je hodne sedive pozadi - teda papir...
    skenbook z tohodle pak neji problem udela dodatecne kontrastni tim, ze se pouzije treba Scantailor na upravu tech skenu....a vyslednej sken se pouzije na peknej kontrastni, kvalitni skenbook... umi to i mix barevne a sede s cernobilym textem 600DPI
    jinak ten postup zminenej MEMNON666: mas celej popsanej tady a jsou tam i ty makra do worda:
    http://santiago.wz.cz/stranky/tipy.html
    MUXX
    MUXX --- ---
    MEMNON666: Posledne jsem mel stesti na knihu. Udelal jsem skeny, ale lezelo mi to skoro rok v pocitaci. Tak jsem to vzdal a hodil to na xtrance s tim, ze to casove nedavam Za tyden mi to nekdo poslal hotove ve wordu.
    MEMNON666
    MEMNON666 --- ---
    MUXX: jednotný návod k digitalizaci je podobný hlavolam - kde záleží jaký máš cíl a co digitalizuješ - pokud to zobecním na beletrii tak nejjednodušší postup (na kterém se také velmi pravděpodobně neshodneme .) ) je plus mínus takový - skenování v ABBYY FR 300DPI šeď (výhodou jsou slovníky) zde provést ruční kontrolu a případně ořez/úpravu rozpoznávaných oblastí, po OCR - export do upravitelného formátu a PDF/DJVU (pro korekturu stačí takto)
    dále už ve Wordu se santiago/quinta makry - odstranění textových polí+Odstranění stylů+Základní úprava textu+(Nahrazení odrážek a číslování+Nahrazení tabulátorů+Spojování stránek a řádků+Spojování odstavců)
    potom Slovníková nahrazení a Kontrolní makra, v dalším kroku projet postupné místa označená kontrolou pravopisu a lehké naformátování nadpisů apod. - takhle se podle mě dostaneš +- spolehlivě do čitelného stavu "Oprava po OCR" a pokud chce někdo lepší verzi tak má k dispozici náhledové skeny a použitelný zdrojový text :)

    (za případné chyby a úmyslná/nechtěná zjednodušení se omlouvám)
    MUXX
    MUXX --- ---
    KRAMERIUS: To jsem mel minule asi spatne. Vysoky kontrast a vysoke dpi, OCR mi pak v kazde spine hledalo hacek nebo carku a mel jsem z toho dost opravovani. No snad mi to tentokrat pujde lip.
    ERGOSUM
    ERGOSUM --- ---
    KRAMERIUS: Já už nějakou dobu neskenuju, ale fotím a tam to chce nastavit EV aby nebyl šedý papír. Postprocesing nedělám(snad mimo ořezů, ale často mám uložené surové snímky).
    KRAMERIUS
    KRAMERIUS --- ---
    ERGOSUM: Dle praktické zkušenosti příliš kontrastu FineReaderu při OCR vadí - má pak horší výsledky než u přirozeně naskenovaných stránek bez nějakého postprocesingu.
    ERGOSUM
    ERGOSUM --- ---
    MUXX: Sám OCR nedělám, ale třeba tady
    Free Online OCR - Frequently Asked Questions
    https://www.onlineocr.net/service/faq
    jim stačí 200DPI
    Na OCR je důležité, aby text byl kontrastní a nebyly tam stíny. Udělat si z kusu papíru masku kolem knihy je dobré na oči a kvalitě to též pomůže.
    KRAMERIUS
    KRAMERIUS --- ---
    MUXX: 300 v odstínech šedé by mělo být OK.
    Pokud jsou tam barevné obrázky tak ty stránky samozřejmě barevně.
    Já obvykle skenuju přímo do FineReaderu, celou knihu přejedu na automat v odstínech šedé, pak ručně vybrané stránky barevně a v FR projektu pak v sekvenci stránek ty šedé nahradím barevnými - a nakonec to celé přejet OCR a vyexportovat v DJVU (obrázky s OCR vrstvou) a do Wordu (text).
    MUXX
    MUXX --- ---
    Chtel bych vyrobit e-knihu z jedne starsi knihy, ktera se neda moc sehnat. K dispozici budu mit Plustek Optibook na skenovani, ale potreboval bych poradit vhodne nastaveni. Predpokladam, ze nejlepsi format je PNG/TIFF, ale jake mam zvolit dpi, aby si s tim OCR pak v pohode poradilo? 300dpi nebo radsi 600dpi?
    MA747
    MA747 --- ---
    MA747: Pokud by to někomu náhodou přišlo vhod: Nenašel jsem SW, který by to uměl, proto jsem napsal skript, který "rozbije" dvě PDF na entity/objekty, identifikuje v nich obrázky a překopíruje je z "malé ostré" verze do "velké neostré s textovou vrstvou", vše složí a zapíše zpět. Kupodivu to funguje (asi je potřeba při uložení v A.F.R. zachovat stejnou velikost dokumentů). Skript je v PoC kvalitě a je napsaný pro konkrétní PDF, proto nemusí být univerzální.
    MA747
    MA747 --- ---
    ERGOSUM: díky za tip, vyzkouším. Nepřesný OCR text pod je jen jakýsi bonus. Důvody jsem popsal zde.
    Kliknutím sem můžete změnit nastavení reklam