2010bEquipe03

De Wiki DAINF
Edição feita às 20h49min de 26 de setembro de 2010 por Igor Pessoa (disc | contribs)

PROCESSAMENTO DE IMAGENS TEXTUAIS


Orientação: Prof. Dra. Leyza Elmeri Baldo Dorini

Equipe: Igor Rodrigues Pessoa, Liria Grockotzki Goularte, Murilo Soares Alves


Tabela de conteúdo

Resumo

Este trabalho consiste primariamente no aprofundamento do estudo de processamento de imagens, as áreas em que atua em conjunto, os métodos e ferramentas para tratar imagens, sensores ópticos para capturar imagens, dentre outros. O desenvolvimento de um software capaz de receber imagens textuais como entrada e digitalizá-las com a finalidade de tratá-las vem logo em seguida. Este tratamento baseia-se no uso de algoritmos que mapeiem, reconheçam e filtrem os possíveis defeitos à que se deseja corrigir, com finalidade de melhoria da visualização. A utilização da segmentação de imagens se fará presente em maior escala, devido ao que se deseja trabalhar, ou seja, com caracteres, e será citada e revista com importância durante o projeto.

Tema

Recuperação de textos digitais através do processamento de imagens.

Introdução

A análise e reconhecimento de imagens é uma área em alta nos dias de hoje por ter uma infinidade de aplicações. Porém, dependendo de que tipo de utilização se pretende fazer dela, é necessário soluções computacionais específicas, requisitando assim uma maior quantidade de estudo. Para se resolver qualquer problema envolvendo processamento de imagens, há uma série de passos:

    • Aquisição e digitalização de imagens: consiste em transformar documentos em imagens digitais sob a forma de tabelas e valores chamdos pixels;
    • Pré-Processamento: deve permitir o tratamento de problemas de inclinação, fundos ruidosos, rabiscos, dados subscritos, dados sublinhados, dentr outros;
    • Segmentação: consiste em localizar automaticamente os campos relevantes do documento;
    • Interpretação: representa a parte "inteligente" e deve permitir o reconhecimento automático do conteúdo de cada um desses campos;

Métodos

Apresentamos aqui alguns algoritmos utilizados para o processamento de imagens. Antes, uma breve explicação de uma expressão que será utilizada:

Tresholding - é um método simples de segmentação de imagens, utilizada na criação de imagens binárias, por níveis de cinza. Vários pixels são selecionados e tratados como objetos, atribuindo-se valores para cada de acordo com os níveis de cinza, separando o que é o 'fundo' e o objeto pixel de interesse. Existem vários algoritmos Tresholding, dependendo da finalidade:

1) Otsu: O algoritmo proposto por Nobuyuki Otsu baseia-se na distribuição de tons da imagem, armazenadas em um histograma. Este procura diferenciar os níveis de cinza (brilho) de uma imagem, através da segmentação de elementos à que se deseja trabalhar. É tido como um método não-paramétrico, ou seja, os testes feitos seguem a seguinte linha:

  (i) são formuladas as 'hipóteses' a serem verificadas
  (ii) com dados pré selecionados e embutidos, são aplicados valores a cada observação dos pixels segmentados
  (iii) atingindo um certo valor limite a cada análise dos pixels, seleciona-se o que foi reconhecido e aceito ou rejeita-se aquela área (não será portanto tratada)

2) Niblack: Descricao do algoritmo: Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binaria T. O threshold no pixel T(x, y) da imagem binaria e decidido pela expressao

  T(x, y) = m(x,y) + k*s(x, y)

onde m(x, y) e s(x, y) sao a media de uma janela local tamanho a ser definido e o desvio padrao correspondente. O valor k e uma constante. Se T(x, y) > F(x,y) o valor desse pixel se torna 0 (preto). Caso contrario torna-se 1 (branco). O valor de k, assim como o tamanho da janela a ser definido dependem da qualidade desejada para a binarizacao.

3) Sauvola: O algoritmo Sauvola e uma modificacao do Niblack, proporcionando um melhor desempenho em documentos em que o fundo contem textura leve, e iluminacao desigual. Nesse algoritmo, o threshold e calculado com uma variacao dinamica do desvio padrao, R, usando a equacao

  T(x, y) = m(x, y) * [1 + k*(s(x,y)/R-1)]

Onde m e s sao novamente a media e o desvio padrao da janela e k uma constante.


Relatório de Atividades

Link - Relatório de Atividades

Referências

http://www.a-a-r-s.org/acrs/proceeding/ACRS1999/Papers/PS599-1.htm

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5344078

Ferramentas pessoais