Elektronické knihy - tvorba a příprava

MEMNON666 --- --- 15:15:44 5.10.2018

MUXX: jednotný návod k digitalizaci je podobný hlavolam - kde záleží jaký máš cíl a co digitalizuješ - pokud to zobecním na beletrii tak nejjednodušší postup (na kterém se také velmi pravděpodobně neshodneme .) ) je plus mínus takový - skenování v ABBYY FR 300DPI šeď (výhodou jsou slovníky) zde provést ruční kontrolu a případně ořez/úpravu rozpoznávaných oblastí, po OCR - export do upravitelného formátu a PDF/DJVU (pro korekturu stačí takto)
dále už ve Wordu se santiago/quinta makry - odstranění textových polí+Odstranění stylů+Základní úprava textu+(Nahrazení odrážek a číslování+Nahrazení tabulátorů+Spojování stránek a řádků+Spojování odstavců)
potom Slovníková nahrazení a Kontrolní makra, v dalším kroku projet postupné místa označená kontrolou pravopisu a lehké naformátování nadpisů apod. - takhle se podle mě dostaneš +- spolehlivě do čitelného stavu "Oprava po OCR" a pokud chce někdo lepší verzi tak má k dispozici náhledové skeny a použitelný zdrojový text :)

(za případné chyby a úmyslná/nechtěná zjednodušení se omlouvám)

ERGOSUM --- --- 23:11:01 4.10.2018

1 odpověď

MUXX: Sám OCR nedělám, ale třeba tady
Free Online OCR - Frequently Asked Questions
https://www.onlineocr.net/service/faq
jim stačí 200DPI
Na OCR je důležité, aby text byl kontrastní a nebyly tam stíny. Udělat si z kusu papíru masku kolem knihy je dobré na oči a kvalitě to též pomůže.

KRAMERIUS --- --- 23:07:46 4.10.2018

MUXX: 300 v odstínech šedé by mělo být OK.
Pokud jsou tam barevné obrázky tak ty stránky samozřejmě barevně.
Já obvykle skenuju přímo do FineReaderu, celou knihu přejedu na automat v odstínech šedé, pak ručně vybrané stránky barevně a v FR projektu pak v sekvenci stránek ty šedé nahradím barevnými - a nakonec to celé přejet OCR a vyexportovat v DJVU (obrázky s OCR vrstvou) a do Wordu (text).

MUXX --- --- 21:40:15 4.10.2018

3 odpovědi

Chtel bych vyrobit e-knihu z jedne starsi knihy, ktera se neda moc sehnat. K dispozici budu mit Plustek Optibook na skenovani, ale potreboval bych poradit vhodne nastaveni. Predpokladam, ze nejlepsi format je PNG/TIFF, ale jake mam zvolit dpi, aby si s tim OCR pak v pohode poradilo? 300dpi nebo radsi 600dpi?

MA747 --- --- 12:04:22 2.9.2018

MA747: Pokud by to někomu náhodou přišlo vhod: Nenašel jsem SW, který by to uměl, proto jsem napsal skript, který "rozbije" dvě PDF na entity/objekty, identifikuje v nich obrázky a překopíruje je z "malé ostré" verze do "velké neostré s textovou vrstvou", vše složí a zapíše zpět. Kupodivu to funguje (asi je potřeba při uložení v A.F.R. zachovat stejnou velikost dokumentů). Skript je v PoC kvalitě a je napsaný pro konkrétní PDF, proto nemusí být univerzální.

MA747 --- --- 10:58:57 27.8.2018

ERGOSUM: díky za tip, vyzkouším. Nepřesný OCR text pod je jen jakýsi bonus. Důvody jsem popsal zde.

ERGOSUM --- --- 12:42:26 26.8.2018

1 odpověď

MA747: Na PDF používám Master PDF editor. Obecně ale radím spíš pdf nepoužívat. Když už tak plně textové PDF.
Tahle obrázková pdf s textovou vrstvou jsou dost nešťastná řešení. Sám takové asi 4 mám a používám je..., no raději nepoužívám.
Buď je totiž text shodný s tím na obrázku a potom je ten na obrázku zbytečný, nebo se liší a to přináší mrzutosti.

GALENIUS --- --- 10:37:00 26.8.2018

Chtěl bych se zeptat, nevíte někdo, jak kompletně reinstalovat firmware na Bookeen Odyssey? Tchýni se nějak rozsypal FW, pro systém (menu atd.) nejspíše používá Windings nebo něco podobného.
Obnova do továrního nastavení nepomáhá.
Díky

MA747 --- --- 20:02:27 25.8.2018

2 odpovědi

Řeším vyhledatelný (searchable) PDF. Tento formát umí ABBY FR (11 i 14). Problém mám s velikostí a s kódováním "obrázků". Nedokážu při uložení vnutit stejné (identické) rozlišení jako vstupní PDF (GIF, 4bit color). Při uložení dochází ke konverzi do JPEGu, i když je ve volbách uložení nic neměnit, nedegradovat kvalitu. Když zatrhnu uvedené volby, je výsledná velikost třeba 10x větší než vstup. Pokud chci "rozumnou" velikost, což je asi 3x větší než vstup, tak je grafický výstup degradovaný (ztrátová konverze, menší rozlišení). Navíc při velkém přiblížení vidím ve všech případech hrany písmen rozostřené - originální vstup je "bitmapově" ostrý. Nenasměroval by mě pls někdo jak to pořešit? Ze zoufalství mě napadlo obě PDF rozbít na entity, promíchat a zase složit, ale nevím, jestli to v rozumném čase realizovatelné.

BTW: nejlepší zkušenost s výrobou nejmenšího PDF jsem udělal pomocí img2pdf.

ERGOSUM --- --- 23:54:00 23.7.2018

Můj kompakt má režim "slova" určený právě na tohle. Například nemá snahu dělat z bílé šedou.

FERRYH --- --- 20:12:41 23.7.2018

to narovnavani prohnutejch str delam zvlast v abbyy fr. 12 ...
to osvetleni u fotek a obrazku to JE big problem ja vim... to nejde jinak nez rucne v photoshopu nebo podobnejch (paint shop pro) SW .. a i tam je to teda pekna pruda!! mam s tim letite zkusenosti :))

MA747 --- --- 18:35:14 23.7.2018

1 odpověď

FERRYH: Ano, je to myšleno na výrobu "skenbooků", protože existují knihy/časopisy/..., které jsou buď obtížné/pracné převést na ebook (tabulky, grafy, vzorečky, složitější sazba, ...) a nebo mi to za to nestojí (relativně časově omezená platnost informace, ...). Proto se i přes nevýhody spokojím se "skenbookem" (protože tablet).
ScanTailor Advanced (díky za tip) jsem teď zkoušel a stále bohužel neumí to, co bych si představoval, tedy narovnání prohnutých stránek a "normalizaci" nestejnoměrného osvětlení vzniklých nafocením.

FERRYH --- --- 18:01:04 23.7.2018

1 odpověď

MA747: jestli jsem tomu dobre rozumel jde o produkt na tvorbu "skenbooku"
teda pdf nebo djvu, kde stranky jsou obrazky-skeny... to neni moc beznej format e-booku
vetsinou se to pouziva jen v amatersken ebookarskem prostredi nebo na tvorbu uzivatelskych ebooku - skripta a pod.

...na tohle je i docela dost sikovnejch a velice kvalitnich free produktu -napriklad ebookari pouzivaji ScanTailor - nejlepsi, momentalne stale jeste aktualizovany a stale zdokonalovany je verze Scantailor Advanced - https://github.com/4lex4/scantailor-advanced/releases

MA747 --- --- 10:03:41 20.7.2018

1 odpověď

Zaujal mě Booksorber. Podle odkazu umí řešit:

warped page content,
inhomogeneous text quality (due to uneven illumination),
too high-contrast images,
unremoved finger artifacts.

ERGOSUM --- --- 20:40:53 5.4.2018

SKOT: Že by se nechtěli bránit proti patentovým trolům a podobné verbeži mi přijde divné, ale pátrat už po tom teď nebudu.

SKOT --- --- 14:55:28 5.4.2018

1 odpověď

ERGOSUM: díky, ty požadavky na systém jsou dobrý postřeh
ERGOSUM: tohle jsou ale spíše interní předpisy organizace, nic k licencování formátu jsem v nich na první pohled nenašel, ostatně co co popisuje JYRKA u Wooky je dost běžný model u mnoha podobných platforem, první kdo si takto EPUB 3 přivlastnil byl Apple se svými iBooks

ERGOSUM --- --- 0:52:48 5.4.2018

1 odpověď

JYRKA: "Zadna licence na epub neni." Pokud myslíš, že epub není uzavřený formát a že se za použití neplatí, souhlasím. Pokud myslíš, že si s tím může každý dělat co chce, není tomu tak.
Corporate Documents | International Digital Publishing Forum
http://idpf.org/about-us/corporate-documents
"Epub je normalni html zazipovane. "
zjednodušeně řečeno. Ve skutečnosti to tak prosté není.

JYRKA --- --- 23:12:43 4.4.2018

1 odpověď

ERGOSUM: Zadna licence na epub neni.
Epub je normalni html zazipovane.
Interne napriklad wooky je epub take.

ERGOSUM --- --- 21:06:08 4.4.2018

2 odpovědi

SKOT: Nevím, ale pochybuji. To by nejspíš neprošlo přes licenci epub.
neodpovídají tomu ani požadavky na systém.
SQL Native Client (32 bit) / SQL Native Client (64 bit)
Microsoft Visual C++ Redistributable Packages for Visual Studio 2013
.NET Framework 4.6.2
epub něco takového nepotřebuje.
Je to nějaký DRM blob. I s ohledem na licence bych si o to neotřel nohy.

SKOT --- --- 13:38:15 4.4.2018

1 odpověď

Nevěděl by někdo prosím od jakého standardu je odvozen proprietární formát využívaný pro interaktivní e-knihy na flexibooks? Epub 3?

MICKEY_MOUSE --- --- 17:06:04 25.3.2018

MA747: Vyhnout se PDFku je přesně ten důvod, proč použít ebook. Změnu parametrů textu vzhledem k různým velikostem displejů i kvalitě zraku vítám. Jen mě zaskočil stav, v jakém ten obor je, předpokládal jsem, že v dnešní době (po zkušenostech s webovými prohlížeči) to je vyladěné = postavené na striktním dodržování standardu. A jsem rád, že jsem po prvotním rozčarování objevil ten Sigil na výrobu a Moon+ Reader, který s tím pracuje přesně tak, jak jsem očekával, že to bude fungovat všude. Tím je to pro mě vyřešeno, umím ebook vyrobit i vím, v čem jej mohou lidé číst, ať už v původním vzhledu, nebo si jej podle potřeby upraví.

MA747 --- --- 15:55:47 25.3.2018

1 odpověď

MICKEY_MOUSE: někteří řeší ten SW zmatek tím, že si La/TeXem vysází PDF na míru. Sice se ochudí o možnost změny velikosti písma, ale...

ERGOSUM --- --- 15:36:45 25.3.2018

KRAMERIUS: MICKEY_MOUSE: Tohle má dvě roviny.
1) Neimplementované funkce - Ano něco je kvůli HW, ale ty rozdíly jsou i v softwarových čtečkách na PC. A to i v případech kdy jde o svobodné licence a "konkurenční", nebo dokonce produkt stejného autora funkce umí. Náklady na vývoj jsou pak minimální. Tam je to často otázkou priorit. Když chci prolétnout knihu během pár minut, zvolím na stejném stroji ten nejrychlejší soft optimalizovaný na rychlost. Jindy bude prioritou vizuál. Na své HW čtečce mám dva čtecí softwary. Ono přeformátování za běhu není snadné ani pro PC. Následující stránku můžeš začít číst během mžiknutí oka, ale když roluješ stránky posuvníkem, tak se časy prodlužují. Jsou funkce které podporuje pár čteček, ale základ používaný v běžné beletrii zvládá každá.

2) U čteček si uživatel nastaví jakou knihu bude číst. Je to jiný přístup než na papíru, kde je vše jak chtěl autor a čtenář si musí vzít lupu nebo jeřáb. Prostě když já jako čtenář chci, aby kniha vypadala takhle, tak já jako autor, který ji chtěl jinak, si mohu jen trhnout nohou. Vezmi to i tak, že si mohu nastavit i to, na co autor kašlal a výsledek může být typograficky lepší(nebo mě víc vyhovovat).

On to většinou zmatek není. Máš dáno standardem, jak se má zobrazit to, co napíšeš do kódu. Pokud to čtečka podporuje (a uživatel nezmění), zobrazí se to právě tak. Situace kdy nevíš jaký kód napsat tedy nenastane. Pro programátory čtecího softu jsou k dipozici i testovací knihy.
Dá se čekat, že čtečky začnou podporovat víc uživatelských profilů a možnost uživatelský profil vypnout.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?