lunedì 5 giugno 2017

Come conteggiare le battute di un pdf senza installare programmi?

Se lavori in campo editoriale (ma anche se non lo fai), ti sarà capitato prima o poi di dover calcolare quanti caratteri contenga un file pdf.
In particolare, se sei una traduttrice o un traduttore, può darsi che l'editore ti abbia inviato il pdf del libro da tradurre, visto che quasi nessuno ti manda più il volume cartaceo originale come si usava una volta. Magari sei tu che vuoi farti un'idea del numero di cartelle e dei relativi tempi di traduzione, oppure è la casa editrice stessa a chiederti un preventivo. Fatto sta che in qualche modo devi riuscire a capire quanti diavolo di caratteri contiene il tuo file, e a volte non è per niente facile.

Di recente ci siamo imbattute in un pdf particolarmente ostico da conteggiare e abbiamo deciso di affrontarlo in maniera scientifica utilizzando vari strumenti, in modo da poter poi annotare, e segnalare, la procedura più efficace. Eccola sintetizzata in questa infografica, che illustriamo di seguito in dettaglio.



Innanzitutto devi scoprire se il tuo pdf è stato generato usando un'applicazione, ad esempio Word, oppure è frutto di una scansione. Come si fa? Semplice: se il file nasce da un programma, ingrandendo un dettaglio della pagina non perderai la nitidezza delle parole, mentre se è stato creato facendo una scansione, più ingrandisci, più i caratteri diventeranno illeggibili.

Se il tuo pdf è generato da un programma, la soluzione è semplice e te la offre Acrobat Reader stesso: vai su File > Salva come altro e scegli il formato "Testo". Il tuo file verrà salvato con estensione txt, dopodiché potrai aprirlo con Word e conteggiare i caratteri come hai sempre fatto (ossia andando su Revisione > Conteggio parole oppure cliccando in basso a sinistra nello schermo dove trovi scritto "Parole"). In questo modo otterrai inoltre un testo editabile in Word, che però nella conversione acquisterà un sacco di spazi bianchi in più (quindi il conteggio dei caratteri spazi inclusi sarà un po' più alto del dovuto).
Se vuoi un conteggio dei caratteri più preciso, ma non ti serve il testo editabile, puoi usare Textomate. Questo sito non richiede registrazioni e calcola velocemente e con precisione il numero di parole, caratteri spazi inclusi e spazi esclusi. Fa soltanto questo (cioè non ti fornisce il testo in altri formati), ma lo fa bene, e non soltanto con i pdf generati da applicazione: funziona anche con alcune scansioni.

E veniamo ai pdf più spinosi: se il file nasce da una scansione, infatti, le cose si complicano un po'. Textomate a parte, abbiamo provato diversi sistemi gratuiti che non richiedono l'installazione di programmi e quello che è uscito vincitore dalla gara è stato OCR Space.
OCR Space non richiede la registrazione e accetta file di più pagine, a differenza di altri sistemi, come Online OCR (che funziona altrettanto bene), i quali ti impongono di creare un profilo utente nel caso tu voglia convertire file che contengono più di una pagina (e se stiamo parlando di libri, beh...!).
L'unico limite di OCR Space è che il pdf da convertire non deve superare i 5 M; se fosse di peso superiore, puoi comunque ridurne le dimensioni caricandolo su Small pdf, un altro sito gratuito che non richiede la creazione di un account.
Il vantaggio di questi OCR rispetto a Textomate è che ti forniscono il testo editabile.

Se la scansione è particolarmente illeggibile e questi sistemi non funzionano, pare che l'alternativa migliore sia Abbyy: è un programma a pagamento da installare, che però offre anche una versione di prova di 30 giorni con la quale puoi convertire al massimo 3 pagine per volta (che non è l'ideale per i libri). Non l'abbiamo provato, ma dalle recensioni pare che sia ottimo e, se hai la necessità di dover conteggiare parecchi pdf molto brevi e recalcitranti e di doverli convertire in testo, puoi tentare l'esperimento.

Un'altra possibilità che ti presentiamo, senza però averla sperimentata di persona, è l'uso di Word 2013 o superiore: pare che queste nuove versioni siano in grado di aprire i pdf (sia ottenuti con un'applicazione, sia con una scansione) utilizzando il semplice comando File > Apri. Il programma ti chiederà se accetti eventuali modifiche al file; bisogna cliccare Ok, dopodiché si può utilizzare il comando Salva con nome e salvare il file in formato Word, che permette di contare facilmente i caratteri e di lavorare sul testo.

Facci sapere quali altre soluzioni conosci e buoni conteggi!

Abbiamo realizzato l'infografica con easel.ly; se ti è piaciuta, puoi condividerla usando le icone nel riquadro grigio qui sotto. 
Guarda anche gli altri post con le infografiche.

2 commenti: