Skip to content

Commit

Permalink
Version 2024.11.02
Browse files Browse the repository at this point in the history
- New version of Tesseract, 5.4.0 64-bit;
- Keep version 5.3.0 for 32-bit;
- New version of XPDF, 4.05;
- Installation routine to select the Tesseract and XPDF versions to use;
- The new version provides a gain of 25% on recognition time!;
- New routine to select the scanner to use;
- Possibility to use or not the beeps to signalize that the  process is going;
- The resultant TXT from a scanning is stored in the Documents folder with the name OCR.TXT;
- The resultant TXT file from recognition of a image file is stored in the same folder and with the same name.
  • Loading branch information
ruifontes committed Nov 2, 2024
1 parent e4409e6 commit 17a34e9
Show file tree
Hide file tree
Showing 224 changed files with 1,293 additions and 1,812 deletions.
12 changes: 6 additions & 6 deletions 2024.3.24.json → 2024.11.2.json
Original file line number Diff line number Diff line change
Expand Up @@ -2,14 +2,14 @@
"addonId": "tesseractOCR",
"displayName": "TesseractOCR: An OCR add-on",
"URL": "",
"description": "Performs OCR on the selected image file, PDF, JPG, TIF, etc, or a document through a scanner and also can get the text from an accessible PDF file.\nThe results are shown in a text file, ocr.txt.\n\nWindows+Control+r - Performs OCR to the selected image file\nWindows+Control+w - Scans and recognize the document in the scanner\nWindows+Control+t - To get the text from an accessible PDF\n",
"sha256": "0f0779f0cd724c512c716ff37a430f3717476c39f6bec7888d0232a75ea168dc",
"description": "Performs OCR on the selected image file, PDF, JPG, TIF, etc, or a document through a scanner and also can get the text from an accessible PDF file.\nThe results are shown in a text file.\n\nWindows+Control+r - Performs OCR to the selected image file\nWindows+Control+w - Scans and recognize the document in the scanner\nWindows+Control+t - To get the text from an accessible PDF\n",
"sha256": "219eaaf8462b15626a28ac8a0ea2bcf569b83240bc5e0d3ac5f010c21657b7c3",
"homepage": "https://github.com/ruifontes/tesseractOCR",
"addonVersionName": "2024.03.24",
"addonVersionName": "2024.11.02",
"addonVersionNumber": {
"major": 2024,
"minor": 3,
"patch": 24
"minor": 11,
"patch": 2
},
"minNVDAVersion": {
"major": 2019,
Expand All @@ -18,7 +18,7 @@
},
"lastTestedVersion": {
"major": 2024,
"minor": 1,
"minor": 4,
"patch": 0
},
"channel": "stable",
Expand Down
3 changes: 2 additions & 1 deletion addon/doc/pt_BR/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,9 @@
## Informações

Este extra utiliza o motor de OCR Tesseract, de código aberto e gratuito, para executar o reconhecimento óptico de caracteres a um documento de imagem, seja PDF, JPG, TIF ou outro, sem necessidade de abrir o documento.
O resultado é mostrado num documento de texto com o mesmo nome do original, mas com extensão .txt colocado na mesma pasta.
Também usa o módulo wia-cmd-scanner para aceder a scanners compatíveis WIA para digitalizar e reconhecer um documento em papel.
Neste caso, o documento com o resultado é colocado na pasta Documentos do usuário com o nome ocr.txt.
Por último, pode obter o texto de um PDF acessível e mostrá-lo no Bloco de notas.
No menu do NVDA, Preferências é adicionada uma secção TesseractOCR, onde poderá configurar os idiomas a utilizar no reconhecimento e o tipo de documentos a reconhecer.
Neste diálogo, para poder fazer OCR a arquivos PDF protegidos por senha, pode marcar para ser solicitada uma senha.
Expand All @@ -32,7 +34,6 @@ Windows+Control+c - Para cancelar o processo de digitalização.
Nota: Tem de ser executado antes de aparecer a caixa de diálogo que pergunta se pretende digitalizar mais páginas!

Depois é só esperar que se abra o ficheiro ocr.txt.
Se pretender preservar o texto reconhecido, não se esqueça de guardar o documento com outro nome e noutro local, pois todos os ficheiros da pasta temporária são eliminados no início do próximo processo de OCR!


## Problemas conhecidos
Expand Down
3 changes: 2 additions & 1 deletion addon/doc/pt_PT/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,9 @@ Compatibilidade: NVDA versão 2019.3 e posteriores
## Informações

Este extra utiliza o motor de OCR Tesseract, de código aberto e gratuito, para executar o reconhecimento óptico de caracteres a um documento de imagem, seja PDF, JPG, TIF ou outro, sem necessidade de abrir o documento.
O resultado é mostrado num documento de texto com o mesmo nome do original, mas com extensão .txt colocado na mesma pasta.
Também permite o acesso a scanners compatíveis WIA para efectuar OCR a um documento em papel.
Neste caso, o documento com o resultado é colocado na pasta Documentos do utilizador com o nome ocr.txt.
Por último, pode obter o texto de um PDF acessível e mostrá-lo no Bloco de notas.
No menu NVDA, Preferências, é adicionada uma secção TesseractOCR, onde pode configurar o seguinte:
- Idiomas a utilizar no reconhecimento;
Expand All @@ -35,7 +37,6 @@ Windows+Control+c - Para cancelar o processo de digitalização.
Nota: Tem de ser executado antes de aparecer a caixa de diálogo que pergunta se pretende digitalizar mais páginas!

Depois é só esperar que o ficheiro ocr.txt apareça com o texto reconhecido.
Se pretender preservar o texto reconhecido, não se esqueça de guardar o documento com outro nome e noutro local, pois todos os ficheiros da pasta temporária são eliminados no início do próximo processo de OCR!

Estes comandos podem ser modificados na caixa de diálogo \"Definir comandos\" na secção \"TesseractOCR\".

Expand Down
Loading

0 comments on commit 17a34e9

Please sign in to comment.