Ao digitalizar um documento, as vezes é necessário torna-lo editável. Aprenda como fazer isso e quais ferramentas podem ser usadas no tutorial abaixo.
Como converter imagens em texto editável
A técnica usada para converter documentos digitalizados em documentos editáveis se chama OCR, ou Optical Character Recognition. O algoritmo analisa uma imagem, como um documento scaneado e extrai as palavras encontradas na ordem que foram encontradas.Softwares que contam com o algoritmo possuem versões pagos, como o Abby Reader, ou gratuitas – como o GT Text. Essa técnica é suscetível a erros e nenhum programa conseguirá extrair 100% do documento sem que você tenha que editar. Normalmente textos sem serifa (como Arial) mostram menos problemas na hora de copiar, enquanto fontes com serifa (Times New Roman) podem causar alguns erros. Vale apontar também que fontes estilizadas são mais difíceis de serem lidas.
One Note
Se você tem o pacote Office do OneNote no computador, você pode usá-lo para extração de texto em imagens.A melhor maneira de fazer isso é usar a opção Enviar para o OneNote. Quando está com o documento ou imagem aberta, vá em Imprimir. Certifique-se que a opção Enviar para o OneNote está selecionada e clique em OK.
GT Text
O projeto open source oferece versões portáteis e com instalador. Faça o download no site oficial.Ao contrário do OneNote, o GT Text não converte todo o texto automaticamente. É preciso selecionar partes do texto com o botão esquerdo do mouse para que eles sejam extraídos e convertidos em textos editáveis. Para isso basta clicar e arrastar na região desejada. Uma janela com o nome Copy Text from Selected Area será mostrada, como aponta a imagem acima. Caso a conversão esteja correta, clique em Continuar. Caso não, clique em Tentar para que o GT Text forneça outra versão.
Para extrair da tela inteira, vá em Tools -> Copy Text From Full Image. Testes com diversas imagens mostraram uma piora na conversão em relação a selecionar partes do texto.
OpenOCR
Disponível apenas em inglês no site oficial, o OpenOCR oferece um robusto sistema de reconhecimento de texto que pode usar uma imagem ou o scanner do computador como fonte. Ao abrir o programa, clique no ícone na parte superior para iniciar o processo.Para documentos com mais de uma coluna, desmarque a opção Single column. Já para imagens que foram digitalizadas em baixa qualidade, escolha Fax. A opção Spell Checking fará uma verificação ortográfica após a digitalização. Clique em Avançar.
O OpenOCR também pode fazer varredura em imagens ou tabelas em uma imagem. Isso é feito ao marcar as opções Search Tables e Search Pictures, como mostra a imagem abaixo.
Clique em Avançar e aguarde o processo de conversão ser finalizado. O OpenOCR irá abrir automaticamente um documento do word com o texto que foi extraído da imagem.
SimpleOCR
De todos os testados o SimpleOCR o melhor programa que converte imagens que estão em inglês. Por outro lado, não há suporte para o português. Obtenha-o no site oficial. Para textos que foram datilografados / digitados, não há limites de análise. Já textos manuscritos, o SimpleOCR limita a 14 dias de uso antes da compra.Ao abrir o programa, escolha o tipo de texto que será analisado (digitado ou manuscrito)
Escolha a língua na qual o texto está escrito e vá em Select para ser levado para o menu principal.
OnlineOCR
OnlineOCR é a única solução online mostrada no tutorial. O site oferece suporte a português e converte os arquivos em docx (Word 2013), xlsx(Excel 2013) ou txt. Acesse o site oficial, clique em Select File aponte para o arquivo que deverá ser convertido e clique em Convert. O site então retornará o arquivo já convertido para um dos formatos como um link de download.
Alternativas pagas
Existem inúmeras alternativas pagas para digitalizadores, dentre os mais famosos estão o Adobe Acrobat e o AbbyReader. Caso opte por estes, prepare-se para desembolsar um bom dinheiro. O AbbyReader por exemplo, não sai por menos de US$ 300.
0 comentários:
Postar um comentário