Dicas úteis

Controle de voz do smartphone

Existem muitas soluções diferentes para o controle de voz das funções do smartphone, mas nem todas foram implementadas com qualidade suficiente. Selecionamos aqueles que realmente funcionam.

O controle de voz ao trabalhar com smartphones modernos e comunicadores equipados com CPUs suficientemente potentes é uma tendência estabelecida na criação de interfaces de usuário convenientes. É possível em vários graus em todas as principais plataformas móveis. No iOS, apareceu na versão 3.0 (totalmente funcional a partir de 4.0), no Google Android - na versão 1.6 (totalmente funcional - a partir de 2.2). Este recurso é relativamente bem implementado no Windows Mobile e S60. Selecionamos várias soluções que podem substituir os módulos de controle de voz padrão, bem como software para expandir a funcionalidade.

Principais características dos sistemas de reconhecimento de voz

Nos últimos dois ou três anos, o controle de fala tem sido considerado uma das tecnologias mais promissoras utilizadas na criação de interfaces de usuário. Isto é afirmado pelos líderes da Microsoft, e representantes do Google e da Apple estão demonstrando notável interesse.

Na verdade, o controle de um dispositivo de comunicação móvel pressionando botões já parece arcaísmo. Telas sensíveis ao toque e voz são comercializadas como formas naturais de interação entre humanos e dispositivos inteligentes. Uma característica importante de tais sistemas é o reconhecimento correto dos comandos. Se tudo ficar mais ou menos claro com o controle de toque (smartphones modernos até suportam controle usando gestos multitoque complexos), então as coisas não são tão simples com comandos de voz.

Primeiro, o sistema pode nem sempre responder corretamente à forma como os comandos são pronunciados. Você terá que se adaptar a esse controle, o que nem sempre é conveniente: é muito cansativo acompanhar o timbre da voz e as entonações o tempo todo. Nesse caso, os comandos devem ser separados do ruído de fundo geral, que requer recursos computacionais.

Em segundo lugar, esse sistema não liga automaticamente - para ativá-lo, como regra, você precisa pressionar um botão em um dispositivo ou acessório (por exemplo, um fone de ouvido sem fio). A inclusão de software nem sempre é conveniente. Em comunicadores com Windows Mobile com pilha de software Broadcomm, a ativação do Microsoft Voice Commander a partir de um fone de ouvido Bluetooth pode funcionar instável ou nem funcionar.

Em terceiro lugar, o controle de voz ainda não é capaz de corrigir imprecisões e erros do usuário. Por exemplo, se você tentar iniciar a reprodução de uma música de um grupo cujo título contenha o artigo "o" sem mencioná-lo, na maioria dos casos o dispositivo não compreenderá esse comando. Também surgem dificuldades ao discar homônimos e homônimos de um bloco de notas - para uma operação correta, você precisa preencher o campo "apelido" e atribuir um comando de inicialização adicional.

Em quarto lugar, para o uso constante de discagem por voz (por exemplo, ao escrever um SMS), o processador do dispositivo móvel inicia módulos do sistema de reconhecimento que consomem muitos recursos. Isso não tem o melhor efeito no desempenho e na vida útil da bateria do comunicador. No entanto, agora esse problema está sendo resolvido gradualmente.

Vlingo é um módulo de controle de voz de plataforma cruzada para trabalhar com software de terceiros

Speereo Voice Launcher oferece um rico conjunto de funções para controle de voz e até mesmo compreende uma pronúncia não muito clara

Gerenciamento de funções padrão do sistema e pesquisa por voz.

Em todos os sistemas operacionais móveis populares, em um grau ou outro, a possibilidade de reconhecimento de voz de comandos para o lançamento de aplicativos típicos é implementada. Por exemplo, discar um número em um bloco de notas, abrir um cliente de e-mail ou iniciar uma lista de reprodução.Além disso, esses módulos podem soar os processos do sistema, informando que o telefone está com pouca carga ou mudou para o modo de alerta silencioso. Nenhum dos programas é capaz de executar comandos mais complexos (por exemplo, “abrir um cliente de e-mail, escrever uma carta ao Sr. Ivanov e marcar todas as mensagens na caixa de entrada como lidas após enviá-la”). No entanto, eles estão se desenvolvendo gradualmente. Portanto, se você perguntar a um iPhone baseado no iOS4 que horas são agora, a hora do sistema será anunciada. Além disso, o mesmo programa de voz deste sistema operacional entende as respostas negativas do usuário: "não", "errado", "errado", etc. Em outros sistemas móveis, ao invés deles, deve-se recorrer ao controle de toque.

Em dispositivos WM clássicos, dois pacotes são usados ​​para controle de voz - Cyberon Voice Commander e Microsoft Voice Command. No entanto, você não poderá usá-los ao mesmo tempo - você deve escolher um.

O primeiro requer algum treinamento para reconhecer os comandos, embora a lista não seja muito grande. O programa pode ligar para contatos, entradas de calendário, executar todos os aplicativos padrão e alguns aplicativos de terceiros e reproduzir música, bem como ler mensagens recebidas. O segundo pacote controla adicionalmente o volume, o modo de operação das conexões sem fio e também os eventos do sistema de sons. A Microsoft também lançou recentemente um produto interessante, o TellMe, para controle de voz avançado. É capaz de lançar o cliente de busca Bing com uma solicitação ditada de informações, falar sobre cotações de ações, resultados esportivos, clima, filmes e condições de tráfego. Mas para tudo isso, o dispositivo deve estar conectado à Internet e estar no campo de visibilidade dos satélites GPS. São essas ferramentas que são usadas para calcular a localização. Além disso, este serviço não está disponível em russo.

No iOS e Android acima da versão 2.2 do FroYo, os sistemas de discagem por voz integrados são aproximadamente os mesmos, com a exceção de que o produto do Google tem a capacidade de rotear rotas usando mapas para a localização do escritório de uma determinada empresa ou um ponto específico . No Symbian OS 5th Edition, o controle de voz é responsável apenas por executar as funções padrão do sistema e, para pesquisa por voz, você precisará instalar um software separado - por exemplo, Google Mobile App.

Controle de voz de funções adicionais e lançamento de programas de terceiros

Obviamente, as ferramentas de voz não devem apenas facilitar parcialmente o trabalho diário com o comunicador, mas assumir completamente o desempenho das atividades cotidianas. Além disso, não apenas com programas padrão, mas também instalados adicionalmente pelo usuário. Para esses fins, você pode usar produtos separados - por exemplo, Speereo Voice Launcher. Este programa é compatível com o sistema operacional Symbian (incluindo S60), Windows Mobile e, no futuro, com o sistema operacional Android. É um shell compacto que permite agendar a inicialização de quaisquer aplicativos e arquivos e a transição para qualquer página da web no navegador.

O produto não depende muito das características da voz do dono do aparelho: o motor de reconhecimento é capaz de detectar comandos pronunciados com sotaque ou pequenos defeitos de dicção. A integração com programas padrão (notebook, agenda, cliente de mensagem rápida) é fornecida, mas não há transferência de favoritos dos Favoritos. A definição dos comandos de lançamento é realizada através das configurações do aplicativo. O usuário escreve o nome do comando em russo em latim ou em um dos idiomas suportados (inglês, alemão, francês, etc.), após o qual é inserido no banco de dados. Curiosamente, Speereo capta comandos mesmo em ambientes barulhentos.

Para as versões do Google Android abaixo de 2.2, existem três aplicativos que substituem o serviço inicializador de aplicativos Voice Actions que apareceu no Android OS FroYo. Em primeiro lugar, são os programas Edwin e Vlingo, que funcionam apenas com o inglês.

O primeiro é um cliente de reconhecimento de comando de voz avançado que fornece não apenas pesquisas do Google, mas também encontra fórmulas matemáticas no Wtolfram Alpha, envia mensagens para o Twitter, etc.

O segundo cliente (roda nas plataformas iOS, WM, S60 e RIM BlackBerry) possui os mesmos recursos do TellMe da Microsoft. Além da possibilidade de enviar status para redes sociais, busca de rotas e informações de contato de empresas da região. Finalmente, existe o TopVoiceControl para comunicadores Android. Além da discagem normal de números da agenda e do reconhecimento de números falados, ele pode controlar interfaces sem fio e abrir o calendário.

Lista de afazeres

Os organizadores de voz ainda são exóticos, mas as primeiras aplicações desse tipo já estão aparecendo e ganhando alguma popularidade. Assim, o referido desenvolvedor Speereo Software oferece o programa Speereo Voice Organizer, desenvolvido para criar entradas no "Calendário" e "Tarefas", e-mails. No entanto, neste caso, a voz não é convertida em texto. A mensagem é enviada como um arquivo de áudio anexado e alertas sobre as tarefas atuais. O IOS inclui o cliente de e-mail QuickVoice2Text Email, que reconhece mensagens ditadas e as traduz em formato de texto.

Para o Google Android, um aplicativo de voz Taskos To Do List foi lançado para adicionar tarefas a uma lista de tarefas e um programa para enviar SMS, cartas e mensagens para o Twitter chamado VoiceLink.

Lista de tarefas a fazer Faça uma lista de tarefas ditando-as ao seu dispositivo com sistema operacional Android

Referência histórica

As primeiras tecnologias de reconhecimento de voz surgiram em 1952 e tornaram possível detectar automaticamente os números falados. No início da década de 1990, surgiram no mercado soluções capazes de lidar com palavras e frases isoladas, bem como com frases simples. Eles eram comuns nos Estados Unidos e usados ​​por médicos e militares. A popularização dos sistemas de controle de voz entre os consumidores comuns começou apenas na virada dos séculos 20 e 21 - com o advento dos smartphones.