2010bEquipe11

De Wiki DAINF
(Diferença entre revisões)
 
(13 edições intermediárias de 4 usuários não apresentadas)
Linha 13: Linha 13:
 
----
 
----
  
15/09/2010 - Produção do texto "A API Java Speech".
+
15/09/2010 - Criação da primeira versão da monografia
  
 
----
 
----
 +
 +
15/09/2010 - Produção do texto "A API Java Speech":
 +
 +
'''A API Java Speech'''
 +
 +
Um grande motivo pelo qual a linguagem Java é largamente utilizada, além de sua portabilidade, é a sua extensibilidade, através das APIs (do inglês Application Programming Interface – Interface de Programação de Aplicações), que são disponibilizadas a desenvolvedores a fim de promover o uso de uma gama maior de recursos nas aplicações.
 +
A API Java Speech foi desenvolvida pela Sun Microsystems, Inc. em colaboração com outras companhias que possuíam uma tecnologia de voz avançada, tais como a IBM Corporation e a Philips Speech Processing. Com o uso dessa API, os desenvolvedores podem incorporar a tecnologia de voz nas interfaces com o usuário para applets e aplicações baseadas na tecnologia Java.
 +
Como seu uso não é de interesse geral – praticamente todas as aplicações em Java não possuem tecnologia de voz –, para usar a API o desenvolvedor deve escolher uma dentre as várias implementações desta; dois exemplos de implementação são a The Cloud Garden e a Lernout & Hauspie's TTS for Java Speech API.''[texto sendo editado e melhorado]''
 +
 +
ORACLE CORPORATION. '''Java Speech API'''. [S.l.]:2010. Disponível em < http://java.sun.com/products/java-media/speech/ >. Acesso em 14 set. 2010, 21:00.
 +
 +
----
 +
 +
05/10/2010 - Estudo do reconhecedor de voz (Microsoft SAPI até o momento) a ser usado dentro da distribuição TalkingJava do java speech 
 +
 +
----
 +
05/10/2010 - Adiantamento da próxima monografia
 +
 +
----
 +
 +
25/10/2010 - Teste na máquina da tecnologia de reconhecimento de voz: a máquina já consegue reconhecer textos em português e traduzir para texto
 +
 +
----
 +
 +
26/10/2010 - Instalação de nova tecnologia de reconhecimento de voz - IBM ViaVoice
 +
 +
----
 +
26/10/2010 - Criação de um tutorial para instalação do software de reconhecimento e do software programado pela equipe
 +
 +
----
 +
26/10/2010 - Trabalho na programação e interface do programa da equipe
 +
 +
----
 +
 +
26/10/2010 - Configuração do reconhecedor para conseguir reconhecer a voz de qualquer ser humano (tom de fala, velocidade de fala, limite de desafinação)
 +
 +
----
 +
 +
17/11/2010 - Configuração das teclas apertadas quando um comando de voz é recebido, e implementação da classe Robot no programa para execução dos comandos
 +
 +
----
 +
 +
17/11/2010 - Revisão completa da monografia, modificação em boa parte da mesma para consertar previamente erros que provavelmente vão ser comentados no dia da defesa
 +
 +
---------------------------
 +
 +
'''INTRODUÇÃO'''
 +
 +
'''Área'''
 +
 +
  Processamento e analise digital de sinais.
 +
 +
'''Tema'''
 +
 +
  Protótipo de um editor de texto baseado em reconhecimento de voz.
 +
 +
'''Objeto'''
 +
 +
  Um protótipo de editor de textos com a aplicação de um sistema de reconhecimento de voz, voltado para o uso de pessoas com impossibilidade física de utilização do teclado. Assim como a apresentação das metodologias aplicadas e de conhecimentos teóricos básicos sobre o assunto.
 +
 +
'''Objetivos'''
 +
 +
'''Objetivo Geral'''
 +
 +
  Desenvolver um editor de textos capaz de compreender letras e comandos simples da língua portuguesa e, a partir destes, realizar comandos ou escrever a letra ditada em uma área de textos [1].
 +
 +
'''Objetivos Específicos'''
 +
 +
  Este projeto tem como objetivos específicos:
 +
  -Aprendizado básico na área de processamento digital de sinais [2].
 +
  -Criar material teórico para elucidar, em relação à Engine IBM ViaVoice, os caminhos a serem escolhidos e suas consequências.
 +
  -Adquirir embasamento teórico para um projeto de editor com aplicação de reconhecimento de voz mais complexo e aplicável na pratica.
 +
 +
'''O Problema'''
 +
 +
  O reconhecimento de voz pode, em certas situações, tornar a ação mais dinâmica [5], assim como também pode auxiliar pessoas com dificuldades físicas no acesso ao mouse ou ao teclado. Por tanto a aplicação de um editor de textos torna uma pessoa, com deficiência física dos membros superiores ou com muitas tarefas a ser realizada ao mesmo tempo, capaz de escrever textos de forma mais eficiente e rápida.
 +
  Existe, porém uma grande dificuldade de trabalhar com o processamento digital de sinais, pois é uma área em que, apesar de hoje ter grandes pesquisas em andamento, ainda existem duvidas e falta de conhecimentos necessários para tornar os reconhecedores realmente precisos, mesmo que não tenham exatidão total [2]. Por tal motivo far-se-á apenas um protótipo.
 +
 +
'''Justificativa'''
 +
 +
  Hoje em dia o mundo está cada vez mais “digital”, ou seja, cada vez mais as pessoas e as empresas precisam dos computadores, porém existem aqueles que por suas condições, sejam momentâneas ou não, tem maior dificuldade em utilizar tais recursos. Os conhecimentos aplicados à área do reconhecimento de voz possibilitariam a estes usuários com necessidades especiais um melhor uso do computador.
 +
  Alguns exemplos das aplicações deste tipo de sistema seriam: inclusão no mercado de trabalho, ou até mesmo para o uso domestico, para pessoas com deficiência física dos membros superiores; edição de textos sem a necessidade de se estar presente em frente ao teclado, tornando assim possível também realizar outras tarefas ao mesmo tempo.
 +
  Para que tudo mencionado acima possa ser realizado deve-se, obviamente, usar um reconhecedor em uma língua que o usuário saiba falar, e como são poucos os sistemas desenvolvidos em português do Brasil, são raros os casos da utilização desses softwares por brasileiros. Por não existirem sistemas baratos e, especialmente, eficazes nesta língua; as pessoas que só falam português e tem tais deficiências, ficam, de certo modo, excluídas da chamada “era digital” ou então tem que se adaptar na utilização de mecanismos amplamente mais complicados para poder ter alguma chance de competir no mundo do computador.
 +
 +
'''Motivação da pesquisa'''
 +
 +
  Unir conhecimentos de disciplinas passadas como programação e outras ainda por vir como processamento digital de sinais e desenvolver um protótipo de aplicativo útil para a sociedade, além de estudar outras possibilidades de aplicações para o reconhecimento de voz.
 +
  Como dito anteriormente, a possibilidade de dar inicio a um trabalho que pode ajudar as pessoas foi também uma grande motivação para a escolha do projeto. Unir sistemas baseados em área do conhecimento com muito a ser pesquisado a algo de cunho social; pode, talvez, incentivar outros estudiosos a se aprofundar mais nesse assunto. 
 +
 +
---------------------------
 +
A IMPORTÂNCIA DA GRAMÁTICA
 +
Conforme comentado na Seção Sistemas de reconhecimento de voz, é de fundamental importância a definição de uma gramática, a fim de determinar um escopo das possíveis palavras e/ou comandos que o usuário possa pronunciar.
 +
Uma gramática pode ser conceituada como um conjunto de princípios que regem o funcionamento de uma língua, mesmo que esta não seja escrita [3].
 +
Em termos dos sistemas de reconhecimento de voz, a gramática é constituída por um ou mais arquivos, que contém as definições necessárias para que determinado reconhecedor de voz funcione.
 +
Um exemplo, considerando uma gramática muito simples, no âmbito de um controle de viagens [2]:
 +
<CIDADE> → São Paulo
 +
 +
<CIDADE> → Brasília
 +
 +
<CIDADE> → Florianópolis
 +
 +
<CHEGADA> → [indo] para <CIDADE>
 +
 +
<PARTIDA> → [a partir] de <CIDADE>
 +
 +
<VIAGEM> → <PARTIDA> <CHEGADA>
 +
 +
<VIAGEM> → <CHEGADA> <PARTIDA>
 +
 +
Em uma gramática, os termos entre ‘<>’ são as variáveis; já as palavras dentro de ‘[ ]’ são opcionais.
 +
 +
-------------------------------------
 +
 +
'''Referências'''
 +
 +
[1] SILVA, Anderson Gomes da Silva. Reconhecimento de voz para palavras isoladas. 2009. 60 f. Trabalho de Conclusão de Curso (Graduação) – Curso Superior em Engenharia da Computação. Universidade Federal de Pernambuco, Recife, 2009. Disponível em: < http://www.cin.ufpe.br/~tg/2009-2/ags.pdf >. Acesso em: 26 out. 2010, 23:40.
 +
[2] GUILHOTO, Paulo José dos Santos; ROSA, Susana Patrícia Costa de Souza. Reconhecimento de voz. 2001. 16 f. Trabalho de Síntese (Graduação) – Curso Superior em Licenciatura em Engenharia Informática. Universidade de Coimbra, Coimbra, 2001. Disponível em: < http://student.dei.uc.pt/~guilhoto/downloads/voz.pdf >. Acesso em: 26 out. 2010, 23:42.
 +
[3] HOUAISS, Antônio. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Objetiva, 2001. 2922 p.
 +
[4] MOREIRA, Luís Filipe. Reconhecimento automático de fala contínua. s.d. 16 f. Trabalho de Graduação. Instituto Politécnico de Bragança, Bragança, s.d. Disponível em: < http://www.ipb.pt/~fmoreira/Itens/RecFalaCont.pdf >. Acesso em: 26 out. 2010, 23:43.
 +
[5] BORGES, Sidney Reis; CARVALHO, Vithor Tibiriçá de. Reconhecimento de voz aplicada a interface de sistemas emergenciais hospitalares. 2009. 86 f. Trabalho de Conclusão de Curso (Graduação) – Curso Superior em Bacharelado em Informática. Universidade Católica de Salvador, Salvador, 2009. Disponível em: < http://info.ucsal.br/banmon/Arquivos/Mono_170609.pdf >. Acesso em: 26 out. 2010, 23:44.
 +
[6] AYRES, Tony; NOLAN, Brian. Voice activated command and control with speech recognition over WiFi. Science of Computer Programming, s.l., n. 59, p. 109-126, 2006.
 +
[7] Sun Microsystems Ltd. Java Speech API Programmers’s Guide. Disponível em: < http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide.pdf >. Acesso em: 27 out. 2010, 11:35.

Edição atual tal como 18h57min de 7 de dezembro de 2010

Pergunta merkle: - Por que é que é que que á a equipe 10 que está anotanto as atividades da equipe 11?

18/08/2010 - Após a formação da equipe definiu-se que o projeto seria baseado na API Java Speech, cujo objetivo se baseia no processo de reconhecimento da voz humana.


26/08/2010 - Definição do orientador do projeto: prof. Leyza Dorini; pesquisas iniciais em Trabalhos de Conclusão de Curso e na Internet acerca do assunto.


01/09/2010 - Download de um Engine do Java para reconhecimento de voz (TalkingJavaSDK-170.jar). Leitura de um periódico (Voice activated command and control with speech recognition over WiFi) sobre Java Speech retirados da Capes.


15/09/2010 - Criação da primeira versão da monografia


15/09/2010 - Produção do texto "A API Java Speech":

A API Java Speech

Um grande motivo pelo qual a linguagem Java é largamente utilizada, além de sua portabilidade, é a sua extensibilidade, através das APIs (do inglês Application Programming Interface – Interface de Programação de Aplicações), que são disponibilizadas a desenvolvedores a fim de promover o uso de uma gama maior de recursos nas aplicações. A API Java Speech foi desenvolvida pela Sun Microsystems, Inc. em colaboração com outras companhias que possuíam uma tecnologia de voz avançada, tais como a IBM Corporation e a Philips Speech Processing. Com o uso dessa API, os desenvolvedores podem incorporar a tecnologia de voz nas interfaces com o usuário para applets e aplicações baseadas na tecnologia Java. Como seu uso não é de interesse geral – praticamente todas as aplicações em Java não possuem tecnologia de voz –, para usar a API o desenvolvedor deve escolher uma dentre as várias implementações desta; dois exemplos de implementação são a The Cloud Garden e a Lernout & Hauspie's TTS for Java Speech API.[texto sendo editado e melhorado]

ORACLE CORPORATION. Java Speech API. [S.l.]:2010. Disponível em < http://java.sun.com/products/java-media/speech/ >. Acesso em 14 set. 2010, 21:00.


05/10/2010 - Estudo do reconhecedor de voz (Microsoft SAPI até o momento) a ser usado dentro da distribuição TalkingJava do java speech


05/10/2010 - Adiantamento da próxima monografia


25/10/2010 - Teste na máquina da tecnologia de reconhecimento de voz: a máquina já consegue reconhecer textos em português e traduzir para texto


26/10/2010 - Instalação de nova tecnologia de reconhecimento de voz - IBM ViaVoice


26/10/2010 - Criação de um tutorial para instalação do software de reconhecimento e do software programado pela equipe


26/10/2010 - Trabalho na programação e interface do programa da equipe


26/10/2010 - Configuração do reconhecedor para conseguir reconhecer a voz de qualquer ser humano (tom de fala, velocidade de fala, limite de desafinação)


17/11/2010 - Configuração das teclas apertadas quando um comando de voz é recebido, e implementação da classe Robot no programa para execução dos comandos


17/11/2010 - Revisão completa da monografia, modificação em boa parte da mesma para consertar previamente erros que provavelmente vão ser comentados no dia da defesa


INTRODUÇÃO

Área

  Processamento e analise digital de sinais.

Tema

  Protótipo de um editor de texto baseado em reconhecimento de voz.

Objeto

  Um protótipo de editor de textos com a aplicação de um sistema de reconhecimento de voz, voltado para o uso de pessoas com impossibilidade física de utilização do teclado. Assim como a apresentação das metodologias aplicadas e de conhecimentos teóricos básicos sobre o assunto.

Objetivos

Objetivo Geral

  Desenvolver um editor de textos capaz de compreender letras e comandos simples da língua portuguesa e, a partir destes, realizar comandos ou escrever a letra ditada em uma área de textos [1].

Objetivos Específicos

  Este projeto tem como objetivos específicos:
  -Aprendizado básico na área de processamento digital de sinais [2].
  -Criar material teórico para elucidar, em relação à Engine IBM ViaVoice, os caminhos a serem escolhidos e suas consequências.
  -Adquirir embasamento teórico para um projeto de editor com aplicação de reconhecimento de voz mais complexo e aplicável na pratica.

O Problema

  O reconhecimento de voz pode, em certas situações, tornar a ação mais dinâmica [5], assim como também pode auxiliar pessoas com dificuldades físicas no acesso ao mouse ou ao teclado. Por tanto a aplicação de um editor de textos torna uma pessoa, com deficiência física dos membros superiores ou com muitas tarefas a ser realizada ao mesmo tempo, capaz de escrever textos de forma mais eficiente e rápida.
  Existe, porém uma grande dificuldade de trabalhar com o processamento digital de sinais, pois é uma área em que, apesar de hoje ter grandes pesquisas em andamento, ainda existem duvidas e falta de conhecimentos necessários para tornar os reconhecedores realmente precisos, mesmo que não tenham exatidão total [2]. Por tal motivo far-se-á apenas um protótipo.

Justificativa

  Hoje em dia o mundo está cada vez mais “digital”, ou seja, cada vez mais as pessoas e as empresas precisam dos computadores, porém existem aqueles que por suas condições, sejam momentâneas ou não, tem maior dificuldade em utilizar tais recursos. Os conhecimentos aplicados à área do reconhecimento de voz possibilitariam a estes usuários com necessidades especiais um melhor uso do computador.
  Alguns exemplos das aplicações deste tipo de sistema seriam: inclusão no mercado de trabalho, ou até mesmo para o uso domestico, para pessoas com deficiência física dos membros superiores; edição de textos sem a necessidade de se estar presente em frente ao teclado, tornando assim possível também realizar outras tarefas ao mesmo tempo.
  Para que tudo mencionado acima possa ser realizado deve-se, obviamente, usar um reconhecedor em uma língua que o usuário saiba falar, e como são poucos os sistemas desenvolvidos em português do Brasil, são raros os casos da utilização desses softwares por brasileiros. Por não existirem sistemas baratos e, especialmente, eficazes nesta língua; as pessoas que só falam português e tem tais deficiências, ficam, de certo modo, excluídas da chamada “era digital” ou então tem que se adaptar na utilização de mecanismos amplamente mais complicados para poder ter alguma chance de competir no mundo do computador.

Motivação da pesquisa

  Unir conhecimentos de disciplinas passadas como programação e outras ainda por vir como processamento digital de sinais e desenvolver um protótipo de aplicativo útil para a sociedade, além de estudar outras possibilidades de aplicações para o reconhecimento de voz.
  Como dito anteriormente, a possibilidade de dar inicio a um trabalho que pode ajudar as pessoas foi também uma grande motivação para a escolha do projeto. Unir sistemas baseados em área do conhecimento com muito a ser pesquisado a algo de cunho social; pode, talvez, incentivar outros estudiosos a se aprofundar mais nesse assunto.  

A IMPORTÂNCIA DA GRAMÁTICA Conforme comentado na Seção Sistemas de reconhecimento de voz, é de fundamental importância a definição de uma gramática, a fim de determinar um escopo das possíveis palavras e/ou comandos que o usuário possa pronunciar. Uma gramática pode ser conceituada como um conjunto de princípios que regem o funcionamento de uma língua, mesmo que esta não seja escrita [3]. Em termos dos sistemas de reconhecimento de voz, a gramática é constituída por um ou mais arquivos, que contém as definições necessárias para que determinado reconhecedor de voz funcione. Um exemplo, considerando uma gramática muito simples, no âmbito de um controle de viagens [2]:

<CIDADE> → São Paulo

<CIDADE> → Brasília

<CIDADE> → Florianópolis

<CHEGADA> → [indo] para <CIDADE>

<PARTIDA> → [a partir] de <CIDADE>

<VIAGEM> → <PARTIDA> <CHEGADA>

<VIAGEM> → <CHEGADA> <PARTIDA>

Em uma gramática, os termos entre ‘<>’ são as variáveis; já as palavras dentro de ‘[ ]’ são opcionais.


Referências

[1] SILVA, Anderson Gomes da Silva. Reconhecimento de voz para palavras isoladas. 2009. 60 f. Trabalho de Conclusão de Curso (Graduação) – Curso Superior em Engenharia da Computação. Universidade Federal de Pernambuco, Recife, 2009. Disponível em: < http://www.cin.ufpe.br/~tg/2009-2/ags.pdf >. Acesso em: 26 out. 2010, 23:40. [2] GUILHOTO, Paulo José dos Santos; ROSA, Susana Patrícia Costa de Souza. Reconhecimento de voz. 2001. 16 f. Trabalho de Síntese (Graduação) – Curso Superior em Licenciatura em Engenharia Informática. Universidade de Coimbra, Coimbra, 2001. Disponível em: < http://student.dei.uc.pt/~guilhoto/downloads/voz.pdf >. Acesso em: 26 out. 2010, 23:42. [3] HOUAISS, Antônio. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Objetiva, 2001. 2922 p. [4] MOREIRA, Luís Filipe. Reconhecimento automático de fala contínua. s.d. 16 f. Trabalho de Graduação. Instituto Politécnico de Bragança, Bragança, s.d. Disponível em: < http://www.ipb.pt/~fmoreira/Itens/RecFalaCont.pdf >. Acesso em: 26 out. 2010, 23:43. [5] BORGES, Sidney Reis; CARVALHO, Vithor Tibiriçá de. Reconhecimento de voz aplicada a interface de sistemas emergenciais hospitalares. 2009. 86 f. Trabalho de Conclusão de Curso (Graduação) – Curso Superior em Bacharelado em Informática. Universidade Católica de Salvador, Salvador, 2009. Disponível em: < http://info.ucsal.br/banmon/Arquivos/Mono_170609.pdf >. Acesso em: 26 out. 2010, 23:44. [6] AYRES, Tony; NOLAN, Brian. Voice activated command and control with speech recognition over WiFi. Science of Computer Programming, s.l., n. 59, p. 109-126, 2006. [7] Sun Microsystems Ltd. Java Speech API Programmers’s Guide. Disponível em: < http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide.pdf >. Acesso em: 27 out. 2010, 11:35.

Ferramentas pessoais