2010bEquipe03

De Wiki DAINF
(Diferença entre revisões)
(Objetivos (precisam ser reescritos))
 
(36 edições intermediárias de um usuário não apresentadas)
Linha 11: Linha 11:
 
Este projeto consiste na implementação e posterior adaptação de algoritmos voltados para o processamento de imagens digitais,
 
Este projeto consiste na implementação e posterior adaptação de algoritmos voltados para o processamento de imagens digitais,
 
focados no reconhecimento de caracteres, fazendo uso de métodos-base anteriormente conhecidos.
 
focados no reconhecimento de caracteres, fazendo uso de métodos-base anteriormente conhecidos.
 +
 
Estes métodos se utilizam da binarização das imagens textuais, para fins da recuperação dos documentos provindos da própria universidade.
 
Estes métodos se utilizam da binarização das imagens textuais, para fins da recuperação dos documentos provindos da própria universidade.
 +
 
É denominado processamento de imagens digitais o método de análise, manipulação e modificação tendo como entrada e como saída uma imagem.
 
É denominado processamento de imagens digitais o método de análise, manipulação e modificação tendo como entrada e como saída uma imagem.
 +
  
 
== Tema ==   
 
== Tema ==   
  
 
Processamento de Imagens Textuais.
 
Processamento de Imagens Textuais.
 +
  
 
== Delimitação do Tema ==
 
== Delimitação do Tema ==
Linha 25: Linha 29:
 
== Introdução ==
 
== Introdução ==
  
A análise e reconhecimento de imagens é uma área em alta nos dias de hoje por ter uma infinidade de aplicações. Porém, dependendo de que tipo de utilização se pretende fazer dela, é necessário soluções computacionais específicas, requisitando assim uma maior quantidade de estudo. Para se resolver qualquer problema envolvendo processamento de imagens, há uma série de passos:
+
É de conhecimento do senso comum que, com o passar do tempo, os documentos impressos ou manuscritos em papel sofram degradação devido às ações químicas provenientes de diversas fontes, muitas delas passivas do próprio ambiente. Ainda que haja um esforço para conservá-los ao máximo, é inevitável que acabem se perdendo ou se tornando ilegíveis. É fácil encontrar casos em que o documento não tenha sido capturado de forma que seja legível ou até mesmo onde a sua captura não seja mais possível e/ou cara demais para realizá-la novamente. Por isso surgiu a necessidade de se encontrar formas de armazenamento de informações mais segura. Foi onde a área de processamento de imagens ligada à textos escaneados surgiu.
 +
Devido à expansão audiovisual, há uma exigência latente quanto à qualidade das imagens em diversos ramos da tecnologia. De maneira análoga, com a possibilidade de, por exemplo, escanear textos transformando-os em imagens (ou seja, digitalizando aquele texto - o que pode ser feito de várias maneiras, com diferentes tipos de digitalizadores), a área do processamento de imagens ganhou mais esta vertente: correção, recuperação e conservação de arquivos de texto.
 +
Uma imagem dita digital diz respeito a uma função bidimensional f(x, y) onde x e y denotam coordenadas espaciais e o valor da função denota a intensidade do brilho (ou níveis de cinza). É também considerada nela uma matriz N x M onde os índices das linhas e colunas identificam um ponto na imagem (os “pixels”) e o valor matricial correspondente identifica o nível de cinza daquele ponto. Desta maneira, quanto mais pixels, melhor a resolução da imagem.
  
 
*Aquisição e digitalização de imagens: consiste em transformar documentos em imagens digitais sob a forma de tabelas e valores chamdos pixels;
 
*Aquisição e digitalização de imagens: consiste em transformar documentos em imagens digitais sob a forma de tabelas e valores chamdos pixels;
Linha 31: Linha 37:
 
*Segmentação: consiste em localizar automaticamente os campos relevantes do documento;
 
*Segmentação: consiste em localizar automaticamente os campos relevantes do documento;
 
*Interpretação: representa a parte "inteligente" e deve permitir o reconhecimento automático do conteúdo de cada um desses campos;
 
*Interpretação: representa a parte "inteligente" e deve permitir o reconhecimento automático do conteúdo de cada um desses campos;
 +
 +
No entando, focaremos na parte de segmentação em diante, do qual trata dos métodos de algoritmos utilizados para filtragem. Passaremos pelos métodos a seguir nomeados: Otsu, Niblack e Sauvola. Identificam cada um, sua maneira de  implementação e sua equação, porém todos terão como resultado imagens binárias - escolhidos apenas dois valores de cores para os pixels, sendo geralmente preto e branco, mas podem ser escolhidas quaisquer outras duas (Shapiro 2001). Deste modo, separando o que é fundo e o que é primeiro plano – no caso aqui estudado, os caracteres.
 +
 +
 +
== Problemas e Premissas ==
 +
 +
A produção intelectual (Repositório Institucional) apresenta grandes quantidades de arquivos e documentos, incluindo Teses, Dissertações, TCCs, Periódicos da Instituição (Portal de Revistas), e outras coleções (Variadas) que necessitam serem armazenadas para uso posterior de outro projeto em andamento na Universidade, o Portal Institucional de Acesso Aberto.
 +
 +
Entre essas produções, existem aquelas que requerem ajuste visual, por conterem ‘defeitos’ causados, como por exemplo, pela ação do tempo, antes de serem guardados.
 +
 +
Fixadas tais premissas, percebemos a gama de conhecimentos que se precisa adquirir, desde a escolha e estudo da linguagem de programação a ser utilizada, dos conceitos de processamento de imagem, até a matemática envolvida nos métodos a serem utilizados.
  
 
== Objetivos ==
 
== Objetivos ==
  
Objetivos gerais
+
'''Objetivos gerais'''
  
 
Implementação e adaptação de algoritimos de reconhecimento voltados ao processamento de imagens textuais,
 
Implementação e adaptação de algoritimos de reconhecimento voltados ao processamento de imagens textuais,
 
viabilizando uma melhor captação de informações compartilhadas por estes documentos.
 
viabilizando uma melhor captação de informações compartilhadas por estes documentos.
  
Objetivos específicos
 
  
Melhoria da qualidade do resultado da imagem final, escolhidas devidamente as pré-condições da imagem a ser tratada;
+
'''Objetivos específicos'''
Eficiência na restauração de documentos com baixo custo, em função da disponibilidade de instruções sobre como operacionalizar esses métodos e do software em desenvolvimento;
+
 
Adaptação dos algoritimos conhecidos para suprirem deficiências existentes;
+
*Melhoria da qualidade do resultado da imagem final, escolhidas devidamente as pré-condições da imagem a ser tratada
 +
*Eficiência na restauração de documentos com baixo custo, em função da disponibilidade de instruções sobre como operacionalizar esses métodos e do software em desenvolvimento
 +
*Adaptação dos algoritimos conhecidos para suprirem deficiências existentes, de acordo com a necessidade e finalidade
 +
*Utilização no Repositório Institucional da UTFPR
 +
*Prolongamento da vida útil de documentos de valor (histórico, informacional, dentre outros)
 +
 
  
 
== Métodos ==
 
== Métodos ==
  
Apresentamos aqui alguns algoritmos utilizados para o processamento de imagens.
+
Apresentamos aqui alguns algoritmos utilizados para o processamento de imagens. Antes, uma breve explicação de uma expressão que será utilizada:
Antes, uma breve explicação de uma expressão que será utilizada:
+
 
 +
'''Tresholding'''
  
'''Tresholding''' - é um método simples de segmentação de imagens, utilizada na criação de imagens binárias, por níveis de cinza.
+
. Resumo - é um método simples de segmentação de imagens, utilizada na criação de imagens binárias, por níveis de cinza.
 
Vários ''pixels'' são selecionados e tratados como objetos, atribuindo-se valores para cada de acordo com os níveis de cinza,
 
Vários ''pixels'' são selecionados e tratados como objetos, atribuindo-se valores para cada de acordo com os níveis de cinza,
 
separando o que é o 'fundo' e o objeto ''pixel'' de interesse, ou seja, binarizando a imagem (preto e branco).
 
separando o que é o 'fundo' e o objeto ''pixel'' de interesse, ou seja, binarizando a imagem (preto e branco).
 
Existem vários algoritmos ''Tresholding'', dependendo da finalidade:
 
Existem vários algoritmos ''Tresholding'', dependendo da finalidade:
 +
 +
. Explanado - Tresholding é a forma mais simplificada da segmentação de imagens.
 +
 +
Pré selecionada uma imagem em níveis de cinza – caso seja colorida, usa-se a transformação para cinza: 0.3R + 0.59G + 0.11B para o sistema RGB – o Tresholding pode usado para binarização de imagens.
 +
 +
Uma imagem que irá passar pelo processo de Tresholding terão seus pixels tratados individualmente como objetos, recebendo um valor dentro da escala de níveis de cinza selecionada. Este valor serve para distinguir o que é plano de fundo do que é primeiro plano (objetos de interesse).
 +
 +
Existem várias maneiras de inferir um valor T (Tresholding) que significará o limiar, ou seja, o valor limite que segmentará a imagem em uma imagem binária: a simples aplicação manual de um valor aleatório e fixo de T; um método iterativo - a aplicação de valores aleatórios de T, percorrendo várias vezes a imagem, segmentando-a e armazenando tais valores de T, que por fim será tirada uma média para um novo valor T melhor; através de um histograma previamente construído, de níveis de cinza VS quantidade de pixels, podendo-se determinar um valor primário de boa qualidade;
 +
  
 
'''1) Otsu''':
 
'''1) Otsu''':
O algoritmo proposto por Nobuyuki Otsu baseia-se na distribuição de tons da imagem, armazenadas em um histograma.
+
Segue o princípio básico de Tresholding. O algoritmo proposto por Nobuyuki Otsu baseia-se na distribuição de tons da imagem, geralmente armazenadas e retiradas de um histograma (Frequência VS Níveis de Cinza).
Este procura diferenciar os níveis de cinza (brilho) de uma imagem, através da segmentação de elementos à que se deseja trabalhar.
+
 
É tido como um método não-paramétrico, ou seja, os testes feitos seguem a seguinte linha:
+
É um método que procura, por exaustão, um valor limiar que minimize a soma ponderada das variâncias intra-classe.
   (i) são formuladas as 'hipóteses' a serem verificadas
+
 
   (ii) com dados pré selecionados e embutidos, são aplicados valores a cada observação dos ''pixels'' segmentados
+
É tido como um método global e não-paramétrico, ou seja, não é necessário que sejam utilizados os parâmetros como desvio e média; é proposto um valor estático para o limiar, que irá percorrer toda a imagem, segmentando-a (para binarizar) a partir deste único valor.
   (iii) atingindo um certo valor limite a cada análise dos ''pixels'', seleciona-se o que foi reconhecido e aceito ou rejeita-se aquela área (não será portanto tratada)
+
 
 +
Compreende os seguintes passos:
 +
Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T.
 +
   Se f(x, y) >= T
 +
   Então g(x, y) = 1;
 +
   Senão g(x, y) = 0;
 +
 
  
 
'''2) Niblack''':
 
'''2) Niblack''':
Descricao do algoritmo:
+
Pode ser visto como uma adaptação do método anterior, adicionando-e uma constante K ao desvio padrão, além de ser um método local.
Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binaria T.
+
 
O threshold no pixel T(x, y) da imagem binaria e decidido pela expressao
+
Portanto, propõe uma maior sensibilidade na diferenciação dos ruídos em relação ao objeto de interesse.
 +
 
 +
Compreende os seguintes passos:
 +
Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T.
 +
 
 +
O threshold no pixel T(x, y) da imagem binária é decidido pela expressão
 
   T(x, y) = m(x,y) + k*s(x, y)
 
   T(x, y) = m(x,y) + k*s(x, y)
onde m(x, y) e s(x, y) sao a media de uma janela local tamanho a ser definido e o desvio padrao correspondente. O valor k e uma constante.
+
onde m(x, y) e s(x, y) sao a média e o desvio padrão correspondente de uma janela local ''w'',
Se T(x, y) > F(x,y) o valor desse pixel se torna 0 (preto). Caso contrario torna-se 1 (branco).
+
onde w recebe como parâmetro o tamanho da janela NxM. O valor indicado pelo desenvolvedor Wayne Niblack para a constante K é -0.2 (podendo variar de -1 até 1)
O valor de k, assim como o tamanho da janela a ser definido dependem da qualidade desejada para a binarizacao.
+
 
 +
Se T(x, y) > F(x,y) o valor desse pixel torna-se 0. Caso contrário torna-se 1.
 +
 
 +
O valor de k, assim como o tamanho da janela a ser definida, dependem da qualidade desejada para a binarizacão.
 +
 
  
 
'''3) Sauvola''':
 
'''3) Sauvola''':
O algoritmo Sauvola e uma modificacao do Niblack, proporcionando um melhor desempenho em documentos em que o fundo contem textura leve, e iluminacao desigual. Nesse algoritmo, o threshold e calculado com uma variacao dinamica do desvio padrao, R, usando a equacao  
+
O algoritmo Sauvola e uma modificacao do Niblack, proporcionando um melhor desempenho em documentos em que o fundo contem textura leve, e iluminacao desigual.
 +
 
 +
Nesse algoritmo, o threshold e calculado com uma variacao dinamica do desvio padrao, R, usando a equacao  
 
   T(x, y) = m(x, y) * [1 + k*(1 - s(x,y)/R)]
 
   T(x, y) = m(x, y) * [1 + k*(1 - s(x,y)/R)]
 
Onde m e s sao novamente a media e o desvio padrao da janela e k uma constante.
 
Onde m e s sao novamente a media e o desvio padrao da janela e k uma constante.
  
== Relatório de Atividades ==
 
  
[[Link - Relatório de Atividades]]
+
== Revocação (Recall) e Precisão (Precision) ==
 +
 
 +
Uma vez que buscamos recuperar o máximo de informações possíveis em documentos de texto, vê-se importante a utilização de um método que transfira para dados concretos a real eficiência, a qualidade de certo sistema (algoritmo) na realização desta recuperação.
 +
 
 +
Uma medida comum é através da Precisão e Revocação. O primeiro mede a quantidade de objetos de interesse, de arquivos relevantes recuperados.
 +
O segundo mede a proporção destes objetos de interesse, de arquivos relevantes recuperados.
 +
 
 +
Seguramente podemos representar pelas fórmulas:
 +
 
 +
Precisão = |Documentos Relevantes ∩ Documentos Recuperados| / |Documentos Recuperados|
 +
 
 +
Revocação = |Documentos Relevantes ∩ Documentos Recuperados| / |Documentos Relevantes|
 +
 
 +
A relação entre estes métodos fornece a eficácia de um sistema de CBIR [Oliveira and Cirne 2007]. Revocação indica a proporção de itens relevantes na base de dados que foram recuperadas ao responder uma consulta (Equação 1). Precisão é a proporção de itens recuperados que são relevantes para a consulta (Equação 2) [Muller and Michoux 2004].
 +
 
 +
True positive = correctly identified
 +
False positive = incorrectly identified
 +
True negative = correctly rejected
 +
False negative = incorrectly rejected
 +
 
 +
 
 +
 
 +
∩│U
 +
 
 +
== Justificativa ==
 +
 
 +
A extensa variedade de aplicações que oferecem as imagens torna este tema altamente produtivo, de modo a ser pesquisado e estudado em diversos campos do mercado. A relação com a informática se dá principalmente pela melhoria da visualização das imagens, por efeitos à que se deseja aplicar, alcançado por programas como Photoshop, Coreldraw, entre outros, envolvendo o processamento de imagens. Porém, não são somente ilustrações e fotos as ditas imagens.
 +
 
 +
Contando com recursos de captação de imagens, arquivos de texto manuscritos ou pré-impressos tornam-se parte do conjunto de imagens, das quais há um óbivo interesse de que se mantenham legíveis. Atualmente, diversos museus de documentos históricos, por exemplo, têm optado por digitalizar tais documentos afim de preservar as informações neles contidas e o valor que ele representa. Porém, esse processo de digitalização nem sempre sai como esperado e vê-se necessário tratá-los. Esta etapa que compõe os softwares especializados. Realizam um trabalho em cima das imagens que resultará em uma melhoria como remoção de ruídos, realinhamento da escrita e mesmo eliminando borrões.
 +
 
 +
Um problema recorrente é quando deparamo-nos com a falta de espaço físico para guardar tais arquivos, fazendo-se necessário o desenvolvimento de um depositório virtual. Em posse do conhecimento de um projeto em andamento na UTFPR, visando a organização de um Portal Institucional de Acesso Público, este nosso projeto promove uma contribuição tangente à possibilidade de recuperar uma maior quantidade de informações dos documentos.
 +
 
 +
Portanto o desenvolvimento deste projeto será de grande valia, conforme a demanda, pela utilização deste na digitalização e realce das imagens textuais como livros, revistas, artigos, dentre outros.
 +
 
 +
 
 +
== Motivação ==
 +
 
 +
Este projeto nos fornece a oportunidade de contribuir com o processo de conservação da produção intelectual da UTFPR. Mais além, nos possibilita contribuir com a divulgação dos trabalhos da instituição, de modo a afirmarmos nosso potencial acadêmico com abertura para o público em geral.
 +
 
 +
Visto isto, acrescentamos que, na qualidade de discente, disponibilizar esta nova ferramenta, que poderá ser manuseada futuramente por diversas outras instituições e/ou pessoas, proporciona uma satisfação pessoal de contribuição para o avanço tecnológico.
 +
 
 +
A imagem é uma forma de linguagem rápida e carregada de sentidos, utilizada e entendida mundialmente, constituindo um papel social importante em qualquer área de atuação. De uma forma ou de outra, a utilizamos largamente em nosso cotidiano. Faz-se, assim, de grande interesse para nós a compreensão e domínio da mesma.
 +
 
  
 
== Referências ==  
 
== Referências ==  
Linha 86: Linha 175:
  
 
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5344078
 
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5344078
 +
 +
Shapiro, Linda G. & Stockman, George C. (2002). "Computer Vision". Prentice Hall.
 +
 +
Nobuyuki Otsu (1979). "A threshold selection method from gray-level histograms". IEEE Trans. Sys., Man., Cyber. 9: 62–66
 +
 +
Saber Digital: Revista Eletronica do CESVA, Valenca, v.1, n.1, 2008.
 +
 +
 +
 +
== Relatório de Atividades ==
 +
 +
[[Link - Relatório de Atividades]]
 +
 +
POATZ, ESSA WIKI NAO SALVOU A ULTIMA EDICAO QUE EU FIZ.
 +
DEU ERRO BEM QDO MUDEI UM MONTE, AVE.
 +
FICA AQUI A INDIGNAÇÃO E O NERD RAGE.
 +
25/10 - por volta das 18hrs.

Edição atual tal como 09h34min de 2 de novembro de 2010

PROCESSAMENTO DE IMAGENS TEXTUAIS


Orientação: Prof. Dra. Leyza Elmeri Baldo Dorini

Equipe: Igor Rodrigues Pessoa, Liria Grockotzki Goularte, Murilo Soares Alves


Tabela de conteúdo

Resumo

Este projeto consiste na implementação e posterior adaptação de algoritmos voltados para o processamento de imagens digitais, focados no reconhecimento de caracteres, fazendo uso de métodos-base anteriormente conhecidos.

Estes métodos se utilizam da binarização das imagens textuais, para fins da recuperação dos documentos provindos da própria universidade.

É denominado processamento de imagens digitais o método de análise, manipulação e modificação tendo como entrada e como saída uma imagem.


Tema

Processamento de Imagens Textuais.


Delimitação do Tema

Análise, implementação e adaptação de algoritmos em imagens de texto.


Introdução

É de conhecimento do senso comum que, com o passar do tempo, os documentos impressos ou manuscritos em papel sofram degradação devido às ações químicas provenientes de diversas fontes, muitas delas passivas do próprio ambiente. Ainda que haja um esforço para conservá-los ao máximo, é inevitável que acabem se perdendo ou se tornando ilegíveis. É fácil encontrar casos em que o documento não tenha sido capturado de forma que seja legível ou até mesmo onde a sua captura não seja mais possível e/ou cara demais para realizá-la novamente. Por isso surgiu a necessidade de se encontrar formas de armazenamento de informações mais segura. Foi onde a área de processamento de imagens ligada à textos escaneados surgiu. Devido à expansão audiovisual, há uma exigência latente quanto à qualidade das imagens em diversos ramos da tecnologia. De maneira análoga, com a possibilidade de, por exemplo, escanear textos transformando-os em imagens (ou seja, digitalizando aquele texto - o que pode ser feito de várias maneiras, com diferentes tipos de digitalizadores), a área do processamento de imagens ganhou mais esta vertente: correção, recuperação e conservação de arquivos de texto. Uma imagem dita digital diz respeito a uma função bidimensional f(x, y) onde x e y denotam coordenadas espaciais e o valor da função denota a intensidade do brilho (ou níveis de cinza). É também considerada nela uma matriz N x M onde os índices das linhas e colunas identificam um ponto na imagem (os “pixels”) e o valor matricial correspondente identifica o nível de cinza daquele ponto. Desta maneira, quanto mais pixels, melhor a resolução da imagem.

  • Aquisição e digitalização de imagens: consiste em transformar documentos em imagens digitais sob a forma de tabelas e valores chamdos pixels;
  • Pré-Processamento: deve permitir o tratamento de problemas de inclinação, fundos ruidosos, rabiscos, dados subscritos, dados sublinhados, dentr outros;
  • Segmentação: consiste em localizar automaticamente os campos relevantes do documento;
  • Interpretação: representa a parte "inteligente" e deve permitir o reconhecimento automático do conteúdo de cada um desses campos;

No entando, focaremos na parte de segmentação em diante, do qual trata dos métodos de algoritmos utilizados para filtragem. Passaremos pelos métodos a seguir nomeados: Otsu, Niblack e Sauvola. Identificam cada um, sua maneira de implementação e sua equação, porém todos terão como resultado imagens binárias - escolhidos apenas dois valores de cores para os pixels, sendo geralmente preto e branco, mas podem ser escolhidas quaisquer outras duas (Shapiro 2001). Deste modo, separando o que é fundo e o que é primeiro plano – no caso aqui estudado, os caracteres.


Problemas e Premissas

A produção intelectual (Repositório Institucional) apresenta grandes quantidades de arquivos e documentos, incluindo Teses, Dissertações, TCCs, Periódicos da Instituição (Portal de Revistas), e outras coleções (Variadas) que necessitam serem armazenadas para uso posterior de outro projeto em andamento na Universidade, o Portal Institucional de Acesso Aberto.

Entre essas produções, existem aquelas que requerem ajuste visual, por conterem ‘defeitos’ causados, como por exemplo, pela ação do tempo, antes de serem guardados.

Fixadas tais premissas, percebemos a gama de conhecimentos que se precisa adquirir, desde a escolha e estudo da linguagem de programação a ser utilizada, dos conceitos de processamento de imagem, até a matemática envolvida nos métodos a serem utilizados.

Objetivos

Objetivos gerais

Implementação e adaptação de algoritimos de reconhecimento voltados ao processamento de imagens textuais, viabilizando uma melhor captação de informações compartilhadas por estes documentos.


Objetivos específicos

  • Melhoria da qualidade do resultado da imagem final, escolhidas devidamente as pré-condições da imagem a ser tratada
  • Eficiência na restauração de documentos com baixo custo, em função da disponibilidade de instruções sobre como operacionalizar esses métodos e do software em desenvolvimento
  • Adaptação dos algoritimos conhecidos para suprirem deficiências existentes, de acordo com a necessidade e finalidade
  • Utilização no Repositório Institucional da UTFPR
  • Prolongamento da vida útil de documentos de valor (histórico, informacional, dentre outros)


Métodos

Apresentamos aqui alguns algoritmos utilizados para o processamento de imagens. Antes, uma breve explicação de uma expressão que será utilizada:

Tresholding

. Resumo - é um método simples de segmentação de imagens, utilizada na criação de imagens binárias, por níveis de cinza. Vários pixels são selecionados e tratados como objetos, atribuindo-se valores para cada de acordo com os níveis de cinza, separando o que é o 'fundo' e o objeto pixel de interesse, ou seja, binarizando a imagem (preto e branco). Existem vários algoritmos Tresholding, dependendo da finalidade:

. Explanado - Tresholding é a forma mais simplificada da segmentação de imagens.

Pré selecionada uma imagem em níveis de cinza – caso seja colorida, usa-se a transformação para cinza: 0.3R + 0.59G + 0.11B para o sistema RGB – o Tresholding pode usado para binarização de imagens.

Uma imagem que irá passar pelo processo de Tresholding terão seus pixels tratados individualmente como objetos, recebendo um valor dentro da escala de níveis de cinza selecionada. Este valor serve para distinguir o que é plano de fundo do que é primeiro plano (objetos de interesse).

Existem várias maneiras de inferir um valor T (Tresholding) que significará o limiar, ou seja, o valor limite que segmentará a imagem em uma imagem binária: a simples aplicação manual de um valor aleatório e fixo de T; um método iterativo - a aplicação de valores aleatórios de T, percorrendo várias vezes a imagem, segmentando-a e armazenando tais valores de T, que por fim será tirada uma média para um novo valor T melhor; através de um histograma previamente construído, de níveis de cinza VS quantidade de pixels, podendo-se determinar um valor primário de boa qualidade;


1) Otsu: Segue o princípio básico de Tresholding. O algoritmo proposto por Nobuyuki Otsu baseia-se na distribuição de tons da imagem, geralmente armazenadas e retiradas de um histograma (Frequência VS Níveis de Cinza).

É um método que procura, por exaustão, um valor limiar que minimize a soma ponderada das variâncias intra-classe.

É tido como um método global e não-paramétrico, ou seja, não é necessário que sejam utilizados os parâmetros como desvio e média; é proposto um valor estático para o limiar, que irá percorrer toda a imagem, segmentando-a (para binarizar) a partir deste único valor.

Compreende os seguintes passos: Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T.

  Se f(x, y) >= T
  Então g(x, y) = 1;
  Senão g(x, y) = 0;


2) Niblack: Pode ser visto como uma adaptação do método anterior, adicionando-e uma constante K ao desvio padrão, além de ser um método local.

Portanto, propõe uma maior sensibilidade na diferenciação dos ruídos em relação ao objeto de interesse.

Compreende os seguintes passos: Temos uma imagem F em escala de cinza e queremos criar uma nova imagem binária T.

O threshold no pixel T(x, y) da imagem binária é decidido pela expressão

  T(x, y) = m(x,y) + k*s(x, y)

onde m(x, y) e s(x, y) sao a média e o desvio padrão correspondente de uma janela local w, onde w recebe como parâmetro o tamanho da janela NxM. O valor indicado pelo desenvolvedor Wayne Niblack para a constante K é -0.2 (podendo variar de -1 até 1)

Se T(x, y) > F(x,y) o valor desse pixel torna-se 0. Caso contrário torna-se 1.

O valor de k, assim como o tamanho da janela a ser definida, dependem da qualidade desejada para a binarizacão.


3) Sauvola: O algoritmo Sauvola e uma modificacao do Niblack, proporcionando um melhor desempenho em documentos em que o fundo contem textura leve, e iluminacao desigual.

Nesse algoritmo, o threshold e calculado com uma variacao dinamica do desvio padrao, R, usando a equacao

  T(x, y) = m(x, y) * [1 + k*(1 - s(x,y)/R)]

Onde m e s sao novamente a media e o desvio padrao da janela e k uma constante.


Revocação (Recall) e Precisão (Precision)

Uma vez que buscamos recuperar o máximo de informações possíveis em documentos de texto, vê-se importante a utilização de um método que transfira para dados concretos a real eficiência, a qualidade de certo sistema (algoritmo) na realização desta recuperação.

Uma medida comum é através da Precisão e Revocação. O primeiro mede a quantidade de objetos de interesse, de arquivos relevantes recuperados. O segundo mede a proporção destes objetos de interesse, de arquivos relevantes recuperados.

Seguramente podemos representar pelas fórmulas:

Precisão = |Documentos Relevantes ∩ Documentos Recuperados| / |Documentos Recuperados|

Revocação = |Documentos Relevantes ∩ Documentos Recuperados| / |Documentos Relevantes|

A relação entre estes métodos fornece a eficácia de um sistema de CBIR [Oliveira and Cirne 2007]. Revocação indica a proporção de itens relevantes na base de dados que foram recuperadas ao responder uma consulta (Equação 1). Precisão é a proporção de itens recuperados que são relevantes para a consulta (Equação 2) [Muller and Michoux 2004].

True positive = correctly identified False positive = incorrectly identified True negative = correctly rejected False negative = incorrectly rejected


∩│U

Justificativa

A extensa variedade de aplicações que oferecem as imagens torna este tema altamente produtivo, de modo a ser pesquisado e estudado em diversos campos do mercado. A relação com a informática se dá principalmente pela melhoria da visualização das imagens, por efeitos à que se deseja aplicar, alcançado por programas como Photoshop, Coreldraw, entre outros, envolvendo o processamento de imagens. Porém, não são somente ilustrações e fotos as ditas imagens.

Contando com recursos de captação de imagens, arquivos de texto manuscritos ou pré-impressos tornam-se parte do conjunto de imagens, das quais há um óbivo interesse de que se mantenham legíveis. Atualmente, diversos museus de documentos históricos, por exemplo, têm optado por digitalizar tais documentos afim de preservar as informações neles contidas e o valor que ele representa. Porém, esse processo de digitalização nem sempre sai como esperado e vê-se necessário tratá-los. Esta etapa que compõe os softwares especializados. Realizam um trabalho em cima das imagens que resultará em uma melhoria como remoção de ruídos, realinhamento da escrita e mesmo eliminando borrões.

Um problema recorrente é quando deparamo-nos com a falta de espaço físico para guardar tais arquivos, fazendo-se necessário o desenvolvimento de um depositório virtual. Em posse do conhecimento de um projeto em andamento na UTFPR, visando a organização de um Portal Institucional de Acesso Público, este nosso projeto promove uma contribuição tangente à possibilidade de recuperar uma maior quantidade de informações dos documentos.

Portanto o desenvolvimento deste projeto será de grande valia, conforme a demanda, pela utilização deste na digitalização e realce das imagens textuais como livros, revistas, artigos, dentre outros.


Motivação

Este projeto nos fornece a oportunidade de contribuir com o processo de conservação da produção intelectual da UTFPR. Mais além, nos possibilita contribuir com a divulgação dos trabalhos da instituição, de modo a afirmarmos nosso potencial acadêmico com abertura para o público em geral.

Visto isto, acrescentamos que, na qualidade de discente, disponibilizar esta nova ferramenta, que poderá ser manuseada futuramente por diversas outras instituições e/ou pessoas, proporciona uma satisfação pessoal de contribuição para o avanço tecnológico.

A imagem é uma forma de linguagem rápida e carregada de sentidos, utilizada e entendida mundialmente, constituindo um papel social importante em qualquer área de atuação. De uma forma ou de outra, a utilizamos largamente em nosso cotidiano. Faz-se, assim, de grande interesse para nós a compreensão e domínio da mesma.


Referências

http://www.a-a-r-s.org/acrs/proceeding/ACRS1999/Papers/PS599-1.htm

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5344078

Shapiro, Linda G. & Stockman, George C. (2002). "Computer Vision". Prentice Hall.

Nobuyuki Otsu (1979). "A threshold selection method from gray-level histograms". IEEE Trans. Sys., Man., Cyber. 9: 62–66

Saber Digital: Revista Eletronica do CESVA, Valenca, v.1, n.1, 2008.


Relatório de Atividades

Link - Relatório de Atividades

POATZ, ESSA WIKI NAO SALVOU A ULTIMA EDICAO QUE EU FIZ. DEU ERRO BEM QDO MUDEI UM MONTE, AVE. FICA AQUI A INDIGNAÇÃO E O NERD RAGE. 25/10 - por volta das 18hrs.

Ferramentas pessoais