Lehce jsem teď zkoušel, jak pracovat s ne-obrázkovým PDF lépe než pomocí konverzí (které dávají naprosto nepoužitelné výsledky). A ukázalo se, že načíst PDF do FineReaderu a nechat to zOCRkovat jako obrázek dává u beletrie až překvapivě dobré výsledky - sem tam se naboří tok dokumentu (zejména kvůli obrázkům, které často vedou k přeházení odstavců) a je samozřejmě nutné předělat hlavičky kapitol, ale jinak mi vznikal docela parádní dokument s minimem chyb. Je to úplně nesrovnatelné s textovou vrstvou, kterou si PDF nese v sobě, a skoro bych řekl, že to je lepší než z kvalitního skenu.