Tesseract.js porta la conversione di immagini OCR ai browser

La traduzione dell'OCR non è ancora perfetta ma è migliorata notevolmente negli ultimi anni. Ad aprire la strada è il Tesseract motore di traduzione attualmente aperto in origine C++.

Anche se questa è una libreria incredibile, è tuttavia limitata al software. Per fortuna qualcuno ha creato una porta di Tesseract in JavaScript che si chiama Tesseract.js. esso supporta fino a 60 lingue e anche se non è certo perfetto, fa bene il lavoro.

L'installazione e l'installazione sono un gioco da ragazzi dove puoi scegli come target qualsiasi elemento dell'immagine sulla pagina ed esegui il Tesseract.recognize () funzione. Questo può prendere qualsiasi tipo di immagine e sarà automaticamente comprimi e traduci proprio nel browser.

Puoi diventare molto più complicato ma la bellezza è come è possibile eseguire OCR con una singola riga di codice.

Controlla la pagina di destinazione Tesseract.js se vuoi vedere una demo dal vivo. Funziona nel browser dove puoi trascinare e rilasciare qualsiasi immagine scansionata di testo per ottenere una traduzione automatica OCR.

Puoi anche scaricare questo esempio localmente attraverso la pagina GitHub oppure puoi costruire la tua app includendo lo script Tesseract.js direttamente da un CDN.

L'esempio di codice più semplice sembra il seguente dove myImage è un riferimento diretto a un elemento immagine HTML:

 Tesseract.recognize (myImage) .then (function (result) console.log (result));

In entrambi i casi questa libreria è così utile per muoversi con OCR sul web. È lontano dall'essere perfetto ma è anche il la migliore risorsa per gli sviluppatori web che desiderano funzionalità OCR in-page dinamiche.

Per saperne di più visita la pagina GitHub di Tesseract.js dove puoi vedere una demo dal vivo e sfogliare la documentazione online.