• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    JYRKAElektronické knihy - tvorba a příprava
    KERRAY
    KERRAY --- ---
    ahojte, nebyl by tu někdo v Brně a okolí, kdo by mi byl ochoten na pár dnů půjčit skener na knihy? nějaký ten Plustek nebo tak něco... mám tu starou knihu ještě o něco menší než A5, která se normálně skenuje fakt špatně, a výsledek pak po úpravách dám volně k dispozici... dík :)
    JYRKA
    JYRKA --- ---
    XARGH: Asi nejdulezitejsi je mit v poradku metadata. Pak Calibre pomuze proti duplicitam.
    Jak to myslis s tim kopirovanim/presouvanim?
    XARGH
    XARGH --- ---
    Přátelé, dávali jste si dohromady kolekci e-books pomocí calibre?
    Máte nějakou radu, jak např presunovat knihy místo kopírování? Jak nepridavat duplikaty? Jiná doručení jak na to?
    JULIANNE
    JULIANNE --- ---
    Máte někdo zkušenost s tím, že Calibre při konverzi html (nebo rtf, odt - zkoušela jsem to vše) vytváří chapter break nejen před nadpisem (styl heading 1, 2), ale i po něm? Ve výsledku to pak dělá -chapter break- *Název kapitoly* -chapter break- *autor*. Nemůžu nikde dohledat, co s tím.

    (A před jednotlivými kapitolami ještě přidává 1., 2., apod. Ve zdroji to není.)
    ZOIDBERG
    ZOIDBERG --- ---
    MA747: Už o něm sháním informace od uživatelů.
    MA747
    MA747 --- ---
    ZOIDBERG: OpticBook (z ebay)?
    MARTY63
    MARTY63 --- ---
    PULKA: Jak jsem se díval, tak nejbližší " rozumný"překlad je "citace z textu". Ale obecně se to asi nepřekládá.
    MICKEY_MOUSE
    MICKEY_MOUSE --- ---
    ZOIDBERG: Aha, pardon, to jsem přehlídl.
    ZOIDBERG
    ZOIDBERG --- ---
    MICKEY_MOUSE: Již není v prodeji .
    ZOIDBERG
    ZOIDBERG --- ---
    S hrůzou jsem zjistil, že nabídka skenerů se brutálně zredukovala. Můj HP4010 už půjde do šrotu, ovšem předpokládaný nástupce Canoscan 9000 už není v nabídce… nějaké nápady?
    PULKA
    PULKA --- ---
    Ahoj, není tady někdo sazeč, co by měl český ekvivalent anglického pullquote? Ve smyslu té citace, která je vyňata z obsahu (často i vizuálně třeba na stranu v novinách)? Pátrám a zatím marně, tak mne napadá zkusit nějaké DTP related auditko, snad to není OT.
    FERRYH
    FERRYH --- ---
    MEMNON666: ja jeste docela dbam na to aby v abbbyy FR pred exportem do souboru (skenbook djvu nebo pdf a docx na ebook) bylo co nejmene chyb OCR ... da to praci, ale pak je zas kvalitni i ten text pod obrazkama v djvu a jinejch skenbokach a dobre se v tom vyhledava, kdyz se dela korektura v docx ebooku podle skenu... ale kazdej ebookar ma svuj zabehany system a profil... chce to zkusit co vyhivuje nejlepe...

    jinak s tim abbyy a sedym pozadim bez kontrastu to je pravdapravdouci... a take to 300dpi max a 200dpi min. 600DPI uz je mnohem vic chybove a mensi DPI ztake... 300 je zlata stredni cesta u beletrie se takto nejlepe dela to OCR a je tam nejmene chyb... cim starsi je ta kniha a ma vice nekvalitni papir a skvrn, tak tim lepe se pak OCR, kdyz je hodne sedive pozadi - teda papir...
    skenbook z tohodle pak neji problem udela dodatecne kontrastni tim, ze se pouzije treba Scantailor na upravu tech skenu....a vyslednej sken se pouzije na peknej kontrastni, kvalitni skenbook... umi to i mix barevne a sede s cernobilym textem 600DPI
    jinak ten postup zminenej MEMNON666: mas celej popsanej tady a jsou tam i ty makra do worda:
    http://santiago.wz.cz/stranky/tipy.html
    MUXX
    MUXX --- ---
    MEMNON666: Posledne jsem mel stesti na knihu. Udelal jsem skeny, ale lezelo mi to skoro rok v pocitaci. Tak jsem to vzdal a hodil to na xtrance s tim, ze to casove nedavam Za tyden mi to nekdo poslal hotove ve wordu.
    MEMNON666
    MEMNON666 --- ---
    MUXX: jednotný návod k digitalizaci je podobný hlavolam - kde záleží jaký máš cíl a co digitalizuješ - pokud to zobecním na beletrii tak nejjednodušší postup (na kterém se také velmi pravděpodobně neshodneme .) ) je plus mínus takový - skenování v ABBYY FR 300DPI šeď (výhodou jsou slovníky) zde provést ruční kontrolu a případně ořez/úpravu rozpoznávaných oblastí, po OCR - export do upravitelného formátu a PDF/DJVU (pro korekturu stačí takto)
    dále už ve Wordu se santiago/quinta makry - odstranění textových polí+Odstranění stylů+Základní úprava textu+(Nahrazení odrážek a číslování+Nahrazení tabulátorů+Spojování stránek a řádků+Spojování odstavců)
    potom Slovníková nahrazení a Kontrolní makra, v dalším kroku projet postupné místa označená kontrolou pravopisu a lehké naformátování nadpisů apod. - takhle se podle mě dostaneš +- spolehlivě do čitelného stavu "Oprava po OCR" a pokud chce někdo lepší verzi tak má k dispozici náhledové skeny a použitelný zdrojový text :)

    (za případné chyby a úmyslná/nechtěná zjednodušení se omlouvám)
    MUXX
    MUXX --- ---
    KRAMERIUS: To jsem mel minule asi spatne. Vysoky kontrast a vysoke dpi, OCR mi pak v kazde spine hledalo hacek nebo carku a mel jsem z toho dost opravovani. No snad mi to tentokrat pujde lip.
    ERGOSUM
    ERGOSUM --- ---
    KRAMERIUS: Já už nějakou dobu neskenuju, ale fotím a tam to chce nastavit EV aby nebyl šedý papír. Postprocesing nedělám(snad mimo ořezů, ale často mám uložené surové snímky).
    KRAMERIUS
    KRAMERIUS --- ---
    ERGOSUM: Dle praktické zkušenosti příliš kontrastu FineReaderu při OCR vadí - má pak horší výsledky než u přirozeně naskenovaných stránek bez nějakého postprocesingu.
    ERGOSUM
    ERGOSUM --- ---
    MUXX: Sám OCR nedělám, ale třeba tady
    Free Online OCR - Frequently Asked Questions
    https://www.onlineocr.net/service/faq
    jim stačí 200DPI
    Na OCR je důležité, aby text byl kontrastní a nebyly tam stíny. Udělat si z kusu papíru masku kolem knihy je dobré na oči a kvalitě to též pomůže.
    KRAMERIUS
    KRAMERIUS --- ---
    MUXX: 300 v odstínech šedé by mělo být OK.
    Pokud jsou tam barevné obrázky tak ty stránky samozřejmě barevně.
    Já obvykle skenuju přímo do FineReaderu, celou knihu přejedu na automat v odstínech šedé, pak ručně vybrané stránky barevně a v FR projektu pak v sekvenci stránek ty šedé nahradím barevnými - a nakonec to celé přejet OCR a vyexportovat v DJVU (obrázky s OCR vrstvou) a do Wordu (text).
    Kliknutím sem můžete změnit nastavení reklam