WSRicardo: Reconhecimento e Sintese De Voz Português

O presente post terá por objetivo reunir links para materiais e artigos sobre reconhecimento de voz e seu estado d'arte. O objetivo do mesmo é prover referências de pesquisa na área que sirvam de meios para desenvolvimento de soluções em reconhecimento de voz para o idioma do português brasileiro para ser utilizado em diversos tipos de aplicações tanto para o segmento de entretenimento como para área de saúde auxiliando no cuidado com idosos e deficientes e todo aquele que possa necessitar de cuidado constante.

Está página será atualizada constantemente a fim de garantir materiais e recursos atualizados bem como novas soluções e materiais para estudos e desenvolvimento de soluções e softwares.

Artigos e Publicações

1. "Datasets de Áudio em Português", por Renato dos Santos Leal no Medium. O presente texto do senhor Renato fornece diversos links de projetos que fornecem um conjunto amplo de datasets para ser usados em treinamentos de modelos.

2. OpenSLR, recursos abertos em reconhecimento de voz.

3. Mozilla Common Voice, conjunto de datasets em vários idiomas.

4. Projeto ADA USP, projeto de Assistente Distribuída Avançada (link www.uclab.xyz/ada)

5. VoxForge, projeto criado para reunir transcrições de falas para uso em projetos de reconhecimento de voz.

Software de Código Aberto

1. Julius

2. HTK

3. https://cmusphinx.github.io/

4. Repositório Alpha Cephei no Github https://github.com/alphacep; site https://alphacephei.com/en/. Projeto de pesquisa em reconhecimento de voz.

5. Vosk, disponível a partir do projeto de pesquisa Alpha Cephei, o Vosk é uma solução de reconhecimento de voz de código aberto. Programadores python podem instalar com "pip install vosk" e ter acesso as bibliotecas usadas. Mais de 20 idiomas e dialetos são suportados pela solução, e incluem: English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech, outros a serem adicionados. É possível usa-lo em dispositivos como Raspberry PI e Android; não requerendo conexão com a internet em seu uso.

6. Real Time Voice Cloning

7. Coqui, free and open speech

8. Tortoise Textt-to-Speech

9. RHVoice (sintese de voz)

Bibliotecas Python Para Deep Learning

Modelagens e técnicas de machine e deep learning, qual envolvem aprendizado de máquina a partir conjunto de dados e modelos matemáticos, tem sido usados em reconhecimento e síntese de voz. Abaixo algumas bibliotecas que podem ser usadas em aplicações e pesquisas na área de reconhecimento e síntese de voz.

1. Tensorflow

2. PyTorch

3. Theano

4. Lasagne

5. Keras

6. mxnet

7. Sklearn-Theano

8. Nolearn https://github.com/dnouri/nolearn

Publicações e Blogs

Postagem fonte Insight (UFC)

Coqui, postagem "YourTTS: Zero-Shot Multi-Speaker Text Synthesis and Voice Conversion"