Version 2024.11.02

- New version of Tesseract, 5.4.0 64-bit; - Keep version 5.3.0 for 32-bit; - New version of XPDF, 4.05; - Installation routine to select the Tesseract and XPDF versions to use; - The new version provides a gain of 25% on recognition time!; - New routine to select the scanner to use; - Possibility to use or not the beeps to signalize that the process is going; - The resultant TXT from a scanning is stored in the Documents folder with the name OCR.TXT; - The resultant TXT file from recognition of a image file is stored in the same folder and with the same name.
ruifontes · Nov 2, 2024 · 17a34e9 · 17a34e9
1 parent e4409e6
commit 17a34e9
Show file tree

Hide file tree

Showing 224 changed files with 1,293 additions and 1,812 deletions.
diff --git a/2024.3.24.json → 2024.11.2.json b/2024.3.24.json → 2024.11.2.json
@@ -2,14 +2,14 @@
 	"addonId": "tesseractOCR",
 	"displayName": "TesseractOCR: An OCR add-on",
 	"URL": "",
-	"description": "Performs OCR on the selected image file, PDF, JPG, TIF, etc, or  a document through a scanner and also can get the text from an accessible PDF file.\nThe results are shown in a text file, ocr.txt.\n\nWindows+Control+r - Performs OCR to the selected image file\nWindows+Control+w - Scans and recognize the document in the scanner\nWindows+Control+t - To get the text from an accessible PDF\n",
-	"sha256": "0f0779f0cd724c512c716ff37a430f3717476c39f6bec7888d0232a75ea168dc",
+	"description": "Performs OCR on the selected image file, PDF, JPG, TIF, etc, or  a document through a scanner and also can get the text from an accessible PDF file.\nThe results are shown in a text file.\n\nWindows+Control+r - Performs OCR to the selected image file\nWindows+Control+w - Scans and recognize the document in the scanner\nWindows+Control+t - To get the text from an accessible PDF\n",
+	"sha256": "219eaaf8462b15626a28ac8a0ea2bcf569b83240bc5e0d3ac5f010c21657b7c3",
 	"homepage": "https://github.com/ruifontes/tesseractOCR",
-	"addonVersionName": "2024.03.24",
+	"addonVersionName": "2024.11.02",
 	"addonVersionNumber": {
 		"major": 2024,
-		"minor": 3,
-		"patch": 24
+		"minor": 11,
+		"patch": 2
 	},
 	"minNVDAVersion": {
 		"major": 2019,
@@ -18,7 +18,7 @@
 	},
 	"lastTestedVersion": {
 		"major": 2024,
-		"minor": 1,
+		"minor": 4,
 		"patch": 0
 	},
 	"channel": "stable",

diff --git a/addon/doc/pt_BR/readme.md b/addon/doc/pt_BR/readme.md
@@ -9,7 +9,9 @@
 ## Informações
 
 Este extra utiliza o motor de OCR Tesseract, de código aberto e gratuito, para executar o reconhecimento óptico de caracteres a um documento de imagem, seja PDF, JPG, TIF ou outro, sem necessidade de abrir o documento.
+O resultado é mostrado num documento de texto com o mesmo nome do original, mas com extensão .txt colocado na mesma pasta.
 Também usa o módulo wia-cmd-scanner para aceder a scanners compatíveis WIA para digitalizar e reconhecer um documento em papel.
+Neste caso, o documento com o resultado é colocado na pasta Documentos do usuário com o nome ocr.txt.
 Por último, pode obter o texto de um PDF acessível e mostrá-lo no Bloco de notas.
 No menu do NVDA, Preferências é adicionada uma secção TesseractOCR, onde poderá configurar os idiomas a utilizar no reconhecimento e o tipo de documentos a reconhecer.
 Neste diálogo, para poder fazer OCR a arquivos PDF protegidos por senha, pode marcar para ser solicitada uma senha.
@@ -32,7 +34,6 @@ Windows+Control+c - Para cancelar o processo de digitalização.
 Nota: Tem de ser executado antes de aparecer a caixa de diálogo que pergunta se pretende digitalizar mais páginas!
 
 Depois é só esperar que se abra o ficheiro ocr.txt.
-Se pretender preservar o texto reconhecido, não se esqueça de guardar o documento com outro nome e noutro local, pois todos os ficheiros da pasta temporária são eliminados no início do próximo processo de OCR!
 
 
 ## Problemas conhecidos

diff --git a/addon/doc/pt_PT/readme.md b/addon/doc/pt_PT/readme.md
@@ -9,7 +9,9 @@ Compatibilidade: NVDA versão 2019.3 e posteriores
 ## Informações
 
 Este extra utiliza o motor de OCR Tesseract, de código aberto e gratuito, para executar o reconhecimento óptico de caracteres a um documento de imagem, seja PDF, JPG, TIF ou outro, sem necessidade de abrir o documento.
+O resultado é mostrado num documento de texto com o mesmo nome do original, mas com extensão .txt colocado na mesma pasta.
 Também permite o acesso a scanners compatíveis WIA para efectuar OCR a um documento em papel.
+Neste caso, o documento com o resultado é colocado na pasta Documentos do utilizador com o nome ocr.txt.
 Por último, pode obter o texto de um PDF acessível e mostrá-lo no Bloco de notas.
 No menu NVDA, Preferências, é adicionada uma secção TesseractOCR, onde pode configurar o seguinte:
 - Idiomas a utilizar no reconhecimento;
@@ -35,7 +37,6 @@ Windows+Control+c - Para cancelar o processo de digitalização.
 Nota: Tem de ser executado antes de aparecer a caixa de diálogo que pergunta se pretende digitalizar mais páginas!
 
 Depois é só esperar que o ficheiro ocr.txt apareça com o texto reconhecido.
-Se pretender preservar o texto reconhecido, não se esqueça de guardar o documento com outro nome e noutro local, pois todos os ficheiros da pasta temporária são eliminados no início do próximo processo de OCR!
 
 Estes comandos podem ser modificados na caixa de diálogo \"Definir comandos\" na secção \"TesseractOCR\".