Conversione Pdf di immagini
Capita di trovare degli ebook in formato pdf, ma non pdf di testo ma bensi pdf scansionati, ossia ogni pagina del pdf è un'immagine. Ora se vogliamo trasformare questo pdf in un pdf di testo che poi potremo utilizzare sia per produrre degli epub o per traduzioni in italiano, dobbiamo utilizzare un ocr. Io sto utilizzado questi strumenti:
PDF24: Programma necessario per modificare le immmaggini incorporate del pdf scansionato in immagini raster questto perchè FreeOcr funziona solo se le immagini nel pdf sono di tipo raster. FreeOcr: Programma di Ocr necessario per convertire ll pdf di immagini in pdf di testo
Conversione delle immagini a raster. Apriamo il pdf originale (scannerizzato) con Adobe Reader poi facciamo stampa, scegliere tra le stampanti PDF24, si aprirà PDF24, impostare qualità massima, rinominare il file es aggiungere estensione -24, poi eseguire: Salva pdf. Carichiamo il file "The Naked Sun-24.pdf in FreeOCR e procediamo come sotto:
Conversione in testo (Ocr) Carichiamo il file "The Naked Sun-24.pdf in FreeOCR con "Open Pdf", poi OCR/All page. Inizierà a convertire. Quando avrà finito andiamo sulla destra, troveremo alcune icone, prima premiamo la freccia angolare sinistra blu (Remove line Breaks) per eliminare tutti i ritorni a capo, poi pigiamo l'icona con la (W) per esportare in Word. Word si apre automaticamente. Ora mediante Trova e Sostituisci reinseriremo i ritorni a capo ma solo dopo il punto (.) inserendo: in Trova un punto (.) mentre in sostituisci (.^p) poi "Sostituisci Tutto". Questo farà in modo di reinserire i ritorni a capo ma solo dopo un punto (fine paragrafo). Mentre prima i paragrafi risultavano spezzati a metà o comunque non in corrispondenza del punto. Salva.
Traduzione del testo in italiano Abbiamo ora il file word in inglese convertito dall'ocr, carichiamolo su Calibre, Converti libro in epub3, poi apri Modifica Libro, seleziona tutti i file di testo html e pulsante destro: Unisci i file selezionati, ora abbiamo un solo file html, clicchiamo sopra pulsante destro Esporta il file. Facendo doppo click sul file html si aprirà Chrome che lo tradurrà in italiano grazie alla funzione di traduzione automatica da inglese a italiano. A volte Chrome si rifiuta di tradurre perchè considera il file un xml invece di un normale html, in tal caso apriamo il file html con Notepad++ e sostituiamo l'intestazione con questa:
Questa è un'intestazione tipica di una pagina web assieme all'estensione .html permettono ha Chrome di eseguire la traduzione in italiano. Doppio click sul file si apre Chrome e traduce automaticamente in italiano. Controllare scorrendo che la traduzione sia completata, dopodichè "Ctrl A" selezionare tutto il testo e copiarlo. Aprire Word ed incollarlo. Avremo ora un file word in italiano. Se vogliamo far fare a Calibre tutto il lavoro di aggiustamento e creazione del l'epub dobbiamo eseguire in word delle impostazioni. Individuare i titoli dei capitoli ed attribuirgli lo stile "Titolo 1", se esistono dei sottocapitoli lo stile "Titolo 2" e se esiste un altro sottolivello lo stile "Titolo 3", questo è importante perchè Calibre li interpreta come <h1> <h2> e <h3> e in corrispondenza eseguirà lo split dei file di testo e creerà l'indice.
Questo approccio ha solo un punto debole nella conversione delle immagini in testo mediante Ocr. Il FreeOcr, che è un Ocr gratuito, non esegue il lavoro i modo perfetto, oltre a richiedere una conversione a raster delle immagini (che noi abbiamo fatto con PDF24), compatta tutti i paragrafi elimindo i ritorni a capo, questo elimina la strutturazione logica dei dei paragrafi. Un romanzo ha i dialoghi raccolti tra virgolette (") o parenteri angolari « e » (1) con un accapo, Le descrizioni, i concetti le emozioni ecc vengono separate con un ritorno a capo, es: Il sole era basso all'orizonte. Aveva un colore rosso fuoco. Era bellissimo. segue un a capo. Il nostro Ocr non è in grado di comprendere questo, non è un essere umano. A questo problema possiamo ovviare alla grande con l'intelligenza artifiiale. L'unica in grado di farlo è Gemini 3 di Google. E possiamo fare molto di più. Possiamo adddirittura fargli fare tutto il lavoro partendo dalle immagini:
Fantastico, oppure partire da un file word con dentro il risultato della conversione a testo fatta con FreeOcr. Metto qui sotto un prompt da utilizzare:
Ho un file Suker Bait.docx che contiene un testo di un romanzo in lingua inglese realizzato da FreeOcr. La sua struttura è priva di ritorni a capo, i dialoghi sono tra virgolette ("). Ogni pagina originale aveva un intestazione: "Suker Bait" e nella pagina seguente: "Isaac Asimov" che si ripetono alternativamente, numeri di pagina. E soprattutto non ha paragrafi strutturati, mi spiego, normalmente i ritorni a capo vengono inseriti quando si è conclusa una descrizione, un concetto, mentre ora è un unico paragrafo enorme senza nessun ritorno a capo, ci sono errori tipici di un ocr. Se ti allego il file tu riusciresti a:
Sistemare i dialoghi con i ritorni a capo dove servono Ricreare i paragrafi che abbiano una coerenza Eliminare le intestazioni ripetitive, lasciare solo il primo titolo Eliminare i numeri di pagina Correggere gli eventuali errori dell'ocr Rispettare il testo esattamente come l'autore ha scritto senza modifiche Mantenere la lingua originale (o tradurre in italiano)
Conversione in Calibre da word a epub Una volta che Gemini ha fatto il suo lavoro, mediante copia ed incolla trasferiamo il testo in italiano dentro Word ed eseguiamo le modfiche di cui sopra: Stili Titolo e la formattazione che vogliamo dare. E' il momento di Calibre carichiamo il file Word poi "Converti Libro" e:
Poi OK, Calibre creerà l'epub3. Ultimi passaggi da fare:
|