2010bEquipe03
Murilo S.A. (disc | contribs) (niblacks method re editing) |
Murilo S.A. (disc | contribs) (→Métodos) |
||
Linha 95: | Linha 95: | ||
Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T. | Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T. | ||
O threshold no pixel T(x, y) da imagem binária é decidido pela expressão | O threshold no pixel T(x, y) da imagem binária é decidido pela expressão | ||
− | T(x, y) = m(x,y) + k*s(x, y) | + | T(x, y) = m(x,y) + k*s(x, y) |
onde m(x, y) e s(x, y) sao a média e o desvio padrão correspondente de uma janela local ''w'', onde w recebe como parâmetro o tamanho da janela NxM. O valor indicado pelo desenvolvedor Wayne Niblack para a constante K é -0.2 (podendo variar de -1 até 1) | onde m(x, y) e s(x, y) sao a média e o desvio padrão correspondente de uma janela local ''w'', onde w recebe como parâmetro o tamanho da janela NxM. O valor indicado pelo desenvolvedor Wayne Niblack para a constante K é -0.2 (podendo variar de -1 até 1) | ||
Se T(x, y) > F(x,y) o valor desse pixel torna-se 0. Caso contrário torna-se 1. | Se T(x, y) > F(x,y) o valor desse pixel torna-se 0. Caso contrário torna-se 1. |
Edição de 15h26min de 20 de outubro de 2010
PROCESSAMENTO DE IMAGENS TEXTUAIS
Orientação: Prof. Dra. Leyza Elmeri Baldo Dorini
Equipe: Igor Rodrigues Pessoa, Liria Grockotzki Goularte, Murilo Soares Alves
Tabela de conteúdo |
Resumo
Este projeto consiste na implementação e posterior adaptação de algoritmos voltados para o processamento de imagens digitais, focados no reconhecimento de caracteres, fazendo uso de métodos-base anteriormente conhecidos. Estes métodos se utilizam da binarização das imagens textuais, para fins da recuperação dos documentos provindos da própria universidade. É denominado processamento de imagens digitais o método de análise, manipulação e modificação tendo como entrada e como saída uma imagem.
Tema
Processamento de Imagens Textuais.
Delimitação do Tema
Análise, implementação e adaptação de algoritmos em imagens de texto.
Introdução
A análise e reconhecimento de imagens é uma área em alta nos dias de hoje por ter uma infinidade de aplicações. Porém, dependendo de que tipo de utilização se pretende fazer dela, é necessário soluções computacionais específicas, requisitando assim uma maior quantidade de estudo. Para se resolver qualquer problema envolvendo processamento de imagens, há uma série de passos:
- Aquisição e digitalização de imagens: consiste em transformar documentos em imagens digitais sob a forma de tabelas e valores chamdos pixels;
- Pré-Processamento: deve permitir o tratamento de problemas de inclinação, fundos ruidosos, rabiscos, dados subscritos, dados sublinhados, dentr outros;
- Segmentação: consiste em localizar automaticamente os campos relevantes do documento;
- Interpretação: representa a parte "inteligente" e deve permitir o reconhecimento automático do conteúdo de cada um desses campos;
Problemas e Premissas
A produção intelectual (Repositório Institucional) apresenta grandes quantidades de arquivos e documentos, incluindo Teses, Dissertações, TCCs, Periódicos da Instituição (Portal de Revistas), e outras coleções (Variadas) que necessitam serem armazenadas para uso posterior de outro projeto em andamento na Universidade, o Portal Institucional de Acesso Aberto. Entre essas produções, existem aquelas que requerem ajuste visual, por conterem ‘defeitos’ causados, como por exemplo, pela ação do tempo, antes de serem guardados. Fixadas tais premissas, percebemos a gama de conhecimentos que se precisa adquirir, desde a escolha e estudo da linguagem de programação a ser utilizada, dos conceitos de processamento de imagem, até a matemática envolvida nos métodos a serem utilizados.
Objetivos
Objetivos gerais
Implementação e adaptação de algoritimos de reconhecimento voltados ao processamento de imagens textuais, viabilizando uma melhor captação de informações compartilhadas por estes documentos.
Objetivos específicos
- Melhoria da qualidade do resultado da imagem final, escolhidas devidamente as pré-condições da imagem a ser tratada
- Eficiência na restauração de documentos com baixo custo, em função da disponibilidade de instruções sobre como operacionalizar esses métodos e do software em desenvolvimento
- Adaptação dos algoritimos conhecidos para suprirem deficiências existentes, de acordo com a necessidade e finalidade
- Utilização no Repositório Institucional da UTFPR
- Prolongamento da vida útil de documentos de valor (histórico, informacional, dentre outros)
Métodos
Apresentamos aqui alguns algoritmos utilizados para o processamento de imagens. Antes, uma breve explicação de uma expressão que será utilizada:
Tresholding
. Resumo - é um método simples de segmentação de imagens, utilizada na criação de imagens binárias, por níveis de cinza. Vários pixels são selecionados e tratados como objetos, atribuindo-se valores para cada de acordo com os níveis de cinza, separando o que é o 'fundo' e o objeto pixel de interesse, ou seja, binarizando a imagem (preto e branco). Existem vários algoritmos Tresholding, dependendo da finalidade:
. Explanado - Tresholding é a forma mais simplificada da segmentação de imagens. Pré selecionada uma imagem em níveis de cinza – caso seja colorida, usa-se a transformação para cinza: 0.3R + 0.59G + 0.11B para o sistema RGB – o Tresholding pode ser usado para binarização de imagens (geralmente em preto e branco). Uma imagem que irá passar pelo processo de Tresholding terão seus pixels tratados individualmente como objetos, recebendo um valor dentro da escala de níveis de cinza selecionada. Este valor serve para distinguir o que é plano de fundo do que é primeiro plano (objetos de interesse). Existem várias maneiras de inferir um valor T (Tresholding) que siginificará o limiar, ou seja, o valor limite que segmentará a imagem em uma imagem binária: a simples aplicação manual de um valor fixo de T; através de um histograma de níveis de cinza VS quantidade de pixels pode-se determinar um valor primário intuitivo de boa qualidade; escolhendo-se um valor aleatório para T, segmenta-se a imagem, que terá então fundo e plano – a cada um destes são guardados como ( ... )
1) Otsu:
Segue o princípio básico de Tresholding. O algoritmo proposto por Nobuyuki Otsu baseia-se na distribuição de tons da imagem, geralmente armazenadas e retiradas de um histograma (Frequência VS Níveis de Cinza). É um método que procura, por exaustão, um valor limiar que minimize a soma ponderada das variâncias intra-classe.
É tido como um método global e não-paramétrico, ou seja, é proposto um valor estático para o limiar, que irá percorrer toda a imagem, segmentando-a (para binarizar) a partir deste único valor.
Compreende os seguintes passos:
Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T.
Se f(x, y) >= T Então g(x, y) = 1; Senão g(x, y) = 0;
2) Niblack:
Pode ser visto como uma adaptação do método anterior, adicionando-e uma constante K ao desvio padrão, além de ser um método local. Portanto, propõe uma maior sensibilidade na diferenciação dos ruídos em relação ao objeto de interesse.
Compreende os seguintes passos:
Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T.
O threshold no pixel T(x, y) da imagem binária é decidido pela expressão
T(x, y) = m(x,y) + k*s(x, y)
onde m(x, y) e s(x, y) sao a média e o desvio padrão correspondente de uma janela local w, onde w recebe como parâmetro o tamanho da janela NxM. O valor indicado pelo desenvolvedor Wayne Niblack para a constante K é -0.2 (podendo variar de -1 até 1) Se T(x, y) > F(x,y) o valor desse pixel torna-se 0. Caso contrário torna-se 1. O valor de k, assim como o tamanho da janela a ser definida, dependem da qualidade desejada para a binarizacão.
3) Sauvola:
O algoritmo Sauvola e uma modificacao do Niblack, proporcionando um melhor desempenho em documentos em que o fundo contem textura leve, e iluminacao desigual. Nesse algoritmo, o threshold e calculado com uma variacao dinamica do desvio padrao, R, usando a equacao
T(x, y) = m(x, y) * [1 + k*(1 - s(x,y)/R)]
Onde m e s sao novamente a media e o desvio padrao da janela e k uma constante.
Referências
http://www.a-a-r-s.org/acrs/proceeding/ACRS1999/Papers/PS599-1.htm
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5344078
Shapiro, Linda G. & Stockman, George C. (2002). "Computer Vision". Prentice Hall.
Nobuyuki Otsu (1979). "A threshold selection method from gray-level histograms". IEEE Trans. Sys., Man., Cyber. 9: 62–66
Saber Digital: Revista Eletronica do CESVA, Valenca, v.1, n.1, 2008.