Come convertire un file PDF in testo modificabile utilizzando la riga di comando in Linux
Ci sono vari motivi per cui potresti voler convertire un file PDF in testo modificabile. Forse hai bisogno di rivedere un vecchio documento e tutto quello che hai è la versione PDF di esso. La conversione di file PDF in Windows è semplice, ma se si utilizza Linux?
Nessun problema. Ti mostreremo come convertire facilmente i file PDF in testo modificabile utilizzando uno strumento da riga di comando chiamato pdftotext, che fa parte del pacchetto "poppler-utils". Questo strumento potrebbe essere già installato. Per verificare se pdftotext è installato sul tuo sistema, premi "Ctrl + Alt + T" per aprire una finestra di terminale. Digitare il seguente comando al prompt e premere "Invio".
dpkg -s poppler-utils
NOTA: quando diciamo di digitare qualcosa in questo articolo e ci sono citazioni attorno al testo, NON digitare le virgolette, a meno che non specifichiamo diversamente.
Se pdftotext non è installato, digita il seguente comando al prompt e premi "Invio".
sudo apt-get install poppler-utils
Digita la tua password quando richiesto e premi "Invio".
Esistono diversi strumenti disponibili nel pacchetto poppler-utils per convertire PDF in diversi formati, manipolare file PDF ed estrarre informazioni da file.
Il seguente è il comando di base per convertire un file PDF in un file di testo modificabile. Premi "Ctrl + Alt + T" per aprire una finestra di Terminale, digita il comando al prompt e premi "Invio".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Modificare il percorso di ciascun file in modo che corrisponda alla posizione e al nome del file PDF originale e in cui si desidera salvare il file di testo risultante. Inoltre, modificare i nomi dei file per corrispondere ai nomi dei file.
Il file di testo viene creato e può essere aperto proprio come si aprirebbe qualsiasi altro file di testo in Linux.
Il testo convertito potrebbe avere interruzioni di riga in luoghi che non desideri. Le interruzioni di riga vengono inserite dopo ogni riga di testo nel file PDF.
È possibile mantenere il layout del documento (intestazioni, piè di pagina, impaginazione, ecc.) Dal file PDF originale nel file di testo convertito utilizzando il flag "-layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Se vuoi convertire solo un intervallo di pagine in un file PDF, usa i flag "-f" e "-l" (un "L" minuscolo) per specificare la prima e l'ultima pagina dell'intervallo che vuoi convertire.
pdftotext -f 5 -l 9 / home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Per convertire un file PDF protetto e crittografato con una password del proprietario, utilizzare il flag "-opw" (il primo carattere nella bandiera è una lettera "O" minuscola, non uno zero).
pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Cambia "password" con quella usata per proteggere il file PDF originale da convertire. Assicurati che ci siano singole virgolette, non doppie, attorno a "password".
Se il file PDF è protetto e crittografato con una password utente, utilizzare il flag "-upw" anziché il flag "-opw". Il resto del comando è lo stesso.
È inoltre possibile specificare il tipo di carattere di fine riga applicato al testo convertito. Ciò è particolarmente utile se si intende accedere al file su un sistema operativo diverso come Windows o Mac. Per fare ciò, usa il flag "-eol" (il carattere medio nella bandiera è una lettera minuscola "O", non uno zero) seguito da uno spazio e dal tipo di carattere di fine riga che vuoi usare (" unix "," dos "o" mac ").
NOTA: Se non si specifica un nome file per il file di testo, pdftotext utilizza automaticamente la base del nome file PDF e aggiunge l'estensione ".txt". Ad esempio, "file.pdf" sarà convertito in "file.txt". Se il file di testo è specificato come "-", il testo convertito viene inviato a stdout, il che significa che il testo viene visualizzato nella finestra Terminale e non salvato in un file.
Per chiudere la finestra del terminale, fai clic sul pulsante "X" nell'angolo in alto a sinistra.
Per ulteriori informazioni sul comando pdftotext, digitare "man pdftotext pagina" al prompt in una finestra di Terminale.