Como converter imagens em texto editável ~ GamesWeb

Ao digitalizar um documento, as vezes é necessário torna-lo editável. Aprenda como fazer isso e quais ferramentas podem ser usadas no tutorial abaixo.

Como converter imagens em texto editável

A técnica usada para converter documentos digitalizados em documentos editáveis se chama OCR, ou Optical Character Recognition. O algoritmo analisa uma imagem, como um documento scaneado e extrai as palavras encontradas na ordem que foram encontradas.
Softwares que contam com o algoritmo possuem versões pagos, como o Abby Reader, ou gratuitas – como o GT Text. Essa técnica é suscetível a erros e nenhum programa conseguirá extrair 100% do documento sem que você tenha que editar. Normalmente textos sem serifa (como Arial) mostram menos problemas na hora de copiar, enquanto fontes com serifa (Times New Roman) podem causar alguns erros. Vale apontar também que fontes estilizadas são mais difíceis de serem lidas.

One Note

Se você tem o pacote Office do OneNote no computador, você pode usá-lo para extração de texto em imagens.
A melhor maneira de fazer isso é usar a opção Enviar para o OneNote. Quando está com o documento ou imagem aberta, vá em Imprimir. Certifique-se que a opção Enviar para o OneNote está selecionada e clique em OK.

Dentro do OneNote, clique com o botão direito na imagem e escolha Copiar Texto da imagem.

Alternativamente, vá na guia Inserir e escolha Imagem. Aponte para a imagem que deseja inserir no bloco de notas do OneNote e a opção Copiar texto da imagem estará disponível.

GT Text

O projeto open source oferece versões portáteis e com instalador. Faça o download no site oficial.
Ao contrário do OneNote, o GT Text não converte todo o texto automaticamente. É preciso selecionar partes do texto com o botão esquerdo do mouse para que eles sejam extraídos e convertidos em textos editáveis. Para isso basta clicar e arrastar na região desejada. Uma janela com o nome Copy Text from Selected Area será mostrada, como aponta a imagem acima. Caso a conversão esteja correta, clique em Continuar. Caso não, clique em Tentar para que o GT Text forneça outra versão.

Parte de texto digitalizado em um periódico disponível na biblioteca nacional

Para extrair da tela inteira, vá em Tools -> Copy Text From Full Image. Testes com diversas imagens mostraram uma piora na conversão em relação a selecionar partes do texto.

OpenOCR

Disponível apenas em inglês no site oficial, o OpenOCR oferece um robusto sistema de reconhecimento de texto que pode usar uma imagem ou o scanner do computador como fonte. Ao abrir o programa, clique no ícone na parte superior para iniciar o processo.

Defina qual será a fonte usada — imagem ou scanner— e clique em Avançar.

Defina em qual língua está o texto. O OpenOCR oferece suporte a um grande número de línguas, de russo a mandarim. Os resultados variam de bons a medianos. Em testes o programa teve mais facilidade de extrair textos corretos de imagens em inglês do que em português.
digitalizar-7

Para documentos com mais de uma coluna, desmarque a opção Single column. Já para imagens que foram digitalizadas em baixa qualidade, escolha Fax. A opção Spell Checking fará uma verificação ortográfica após a digitalização. Clique em Avançar.
digitalizar-17

O OpenOCR também pode fazer varredura em imagens ou tabelas em uma imagem. Isso é feito ao marcar as opções Search Tables e Search Pictures, como mostra a imagem abaixo.
digitalizar-19

Clique em Avançar e aguarde o processo de conversão ser finalizado. O OpenOCR irá abrir automaticamente um documento do word com o texto que foi extraído da imagem.
digitalizar-18

SimpleOCR

De todos os testados o SimpleOCR o melhor programa que converte imagens que estão em inglês. Por outro lado, não há suporte para o português. Obtenha-o no site oficial. Para textos que foram datilografados / digitados, não há limites de análise. Já textos manuscritos, o SimpleOCR limita a 14 dias de uso antes da compra.
Ao abrir o programa, escolha o tipo de texto que será analisado (digitado ou manuscrito)

Escolha a língua na qual o texto está escrito e vá em Select para ser levado para o menu principal.

O funcionamento do SimpleOCR é relativamente similar ao OpenOCR, ele precisa de uma fonte e automaticamente converte o texto por inteiro. Clique em Add Page para começar a conversão.

Escolha a fonte (Scanner, imagem, tablet, etc) e clique em OK

O programa mostrará uma prévia da imagem. Clique em Convert to Text para que o SimpleOCR mostre a conversão em texto editável.

Na parte inferior do programa será mostrado o resultado da conversão. Ele permite que você edite as palavras que o programa não conheceu. Após isso basta ir em File-> Save As para exportar o resultado para um documento do Word.

OnlineOCR

OnlineOCR é a única solução online mostrada no tutorial. O site oferece suporte a português e converte os arquivos em docx (Word 2013), xlsx(Excel 2013) ou txt. Acesse o site oficial, clique em Select File aponte para o arquivo que deverá ser convertido e clique em Convert. O site então retornará o arquivo já convertido para um dos formatos como um link de download.

Alternativas pagas

Existem inúmeras alternativas pagas para digitalizadores, dentre os mais famosos estão o Adobe Acrobat e o AbbyReader. Caso opte por estes, prepare-se para desembolsar um bom dinheiro. O AbbyReader por exemplo, não sai por menos de US$ 300.

GamesWeb

Total de visualizações de página

Seguidores ! Seja um deles !

Categories

Quem sou eu

quarta-feira, 14 de outubro de 2015