Come posso copiare il testo da un PDF conservando la formattazione?
Il PDF, il formato di documento onnipresente, è ottimo per la condivisione di documenti preservando i caratteri, le immagini e il layout generale su tutte le piattaforme. C'è un modo semplice, tuttavia, per preservare quella stessa formattazione quando si copia e incolla il testo fuori dal documento?
La sessione di domande e risposte di oggi ci viene fornita per gentile concessione di SuperUser, una suddivisione di Stack Exchange, un raggruppamento di siti Web di domande e risposte basato sulla comunità.
La domanda
Lettore SuperUser Colen sta cercando un modo per estrarre testo dai PDF preservando la formattazione:
Quando copio il testo da un file PDF e in un editor di testo, questo finisce per essere storpiato in vari modi. La formattazione come grassetto e corsivo sono persi; le interruzioni di linea morbide all'interno di un paragrafo di testo vengono convertite in interruzioni di linea dura; i trattini per spezzare una parola su due righe vengono conservati anche quando non dovrebbero essere; e le virgolette singole e doppie vengono sostituite con? segni.
Idealmente, mi piacerebbe essere in grado di copiare il testo da un PDF e avere formattazione convertita in codici HTML, "virgolette" convertite in "e" e interruzioni di riga eseguite correttamente. C'è un modo per fare questo?
C'è un modo semplice e veloce per Colen (e il resto di noi) di prendere il testo senza sacrificare la formattazione?
La risposta
Il collaboratore di SuperUser Frabjous offre una soluzione combinata con una forte dose di cautela:
In primo luogo, devi capire cos'è un PDF. I PDF sono progettati per imitare una pagina stampata e sono progettati solo come formato di output, non come formato di input. un PDF è fondamentalmente una mappa che contiene l'esatta posizione dei caratteri (lettere individuali o punteggiatura, ecc.) o immagini. Nella maggior parte dei casi, un PDF non memorizza nemmeno le informazioni su dove termina una parola e ne inizia un'altra, molto meno cose come interruzioni morbide rispetto a interruzioni forzate per terminazioni di paragrafo.
(Alcuni PDF recenti memorizzano alcune informazioni su questa roba, ma questa è una nuova tecnologia, e saresti fortunato a trovare file PDF del genere. Anche se lo facessi, il tuo visualizzatore PDF potrebbe non saperlo.)
Ad ogni modo, spetta al tuo software implementare una sorta di "intelligenza artificiale" per estrarre solo dalle posizioni dei singoli personaggi che cos'è una parola, che cos'è un paragrafo e così via. Software diversi lo faranno meglio di altri e dipenderanno anche da come è stato realizzato il PDF. In ogni caso, non dovresti mai aspettarti risultati perfetti. Avere il PDF di output non è come avere il documento di origine. Molto meglio cercare di ottenerlo se puoi.
La soluzione standard al tuo tipo di problema è usare Adobe Acrobat Professional (il costoso, non il lettore gratuito) per convertire il PDF in HTML. Anche questo non otterrà risultati perfetti.
Esiste un software gratuito che può essere utilizzato per estrarre il testo dai PDF con alcune formattazioni intatte, ma, di nuovo, non aspettatevi risultati perfetti. Vedi, ad esempio, calibre (che può convertire in formato RTF), pdftohtml / pdfreflow o il word processor AbiWord (con tutti i plugin di importazione / esportazione abilitati). C'è anche un plug-in di importazione PDF per OpenOffice.
Ma per favore non aspettarti la perfezione con nessuno di questi risultati. Stai andando contro il grano qui. PDF non è da intendersi come un formato di input modificabile.
Se hai difficoltà a decidere con quale strumento iniziare, Caliber è un vero e proprio coltello svizzero per documenti. Puoi anche usarlo per convertire i file PDF da utilizzare sul tuo lettore di ebook e organizzare il tuo ebook / libreria di documenti.
Hai qualcosa da aggiungere alla spiegazione? Sound off nei commenti. Vuoi leggere più risposte dagli altri utenti di Stack Exchange esperti di tecnologia? Controlla la discussione completa qui.