WaveNet é uma rede neural profunda pra gerar áudio exibe a mostra. Foi construída por pesquisadores da empresa de inteligência artificial de Londres DeepMind. A técnica, descrita em um post publicado em setembro de 2016, é capaz de gerar sons realistas, como vozes humanas modelando formas de onda diretamente por intermédio de redes neurais treinadas diretamente a partir de demonstrações de fala humana real.
Testes realizados com o inglês e o mandarim, mostraram que o sistema superava os sistemas de sinopse de fala (text-to-speech, TTS) do Google, porém ainda é menos concluente do que o discurso humano real. A experiência de Wavenet pra gerar maneiras de onda permite modelar cada tipo de áudio, incluindo a música.
Uma startup canadense chamada Lyrebird-AI dispõe de tecnologia parelho, a começar por um padrão de aprendizado profundo contrário. Gerar o discurso a começar por texto é uma tarefa cada vez mais comum, devido à popularidade de software, como Apple, o Siri, Cortana, Amazona Alexa ou o Assistente do Google. A maioria de tais sistemas utilizam uma variante de uma técnica que usa fragmentos de sons concatenados pra formar sons e frases notórios.
O mais comum destes é conhecido como sinopse concatenativa da fala. Consiste de grande biblioteca de fragmentos da fala, gravuras de um falante, que se concatenan pra produzir sons e expressões completas. O resultado não soa natural, com uma cadência e tom estranhos. A dependência em relação à biblioteca que tenha sido gravada bem como o torna custoso de modificar ou substituir a voz.
Outra técnica, conhecida como TTS paramétrica, utiliza modelos matemáticos para recriar sons que se reúnem em palavras e frases. O detalhe necessária pra gerar os sons tem que estar armazenada nos parâmetros do modelo. As características da fala produzida são controladas de um a outro lado das entradas do modelo, durante o tempo que a fala é gerado tipicamente com uma técnica de voz sintética denominada vocoder. Isto também poderá resultar em que o som seja natural.
WaveNet é um tipo de rede neural chamado de rede neural convolucional profunda. Em WaveNet, a rede toma as amostras de um sinal como entrada e produz mostra mostra a saída. O que há por demonstração de uma distribuição, a começar por uma softmax (sendo assim, categórica) de umas demonstrações codificadas usando uma transformação μ-lei e cuantizada de acordo com 256 valores possíveis. No post de 2016, a rede é forneceram-formas de onda reais de fala em inglês e mandarim.
Quando estas entradas passam a partir da rede, ela assimilar um conjunto de regras pra relatar a forma como evolui a maneira de onda no tempo. A rede treinada podes, assim sendo, formar outras maneiras de onda, como fala a uma regularidade de amostragem de dezesseis 000 demonstrações por segundo. Estas formas de onda incluem ruídos dos lábios e respirações realistas – contudo não de acordo com qualquer língua.
- Memória USB com uma capacidade mínima de oito GB
- Como podemos saber se se trata realmente de uma entidade bancária, ou não
- 2 Ver assim como
- As ações, os direitos e obrigações à dedicação do agente
- Chaves de fenda, com os que desenvolver e desmontar todas as partes do pc
- E o futuro no cinema
- VR Xbox 360 Pc Emulator
WaveNet tem perícia pra modelar vozes diferentes, com o acento e tom de entrada correlacionada com a entrada. Tais como, se você está treinada com alemão, produz fala em alemão. Esta competência de clonar as vozes tem levantado preocupações éticas a respeito da prática de WaveNet pra imitar as vozes de pessoas vivas.
Esta know-how também significa que, se a WaveNet se fornece novas entradas -como a música – tua geração será musical. No momento de sua publicação, DeepMind descreveu que WaveNet poderia produzir maneiras de ondas sonoras, como música clássica. Quando foi publicado, DeepMind citou que WaveNet exigiu muita potência computacional para ser usada em aplicações da existência real. Mas em outubro de 2017, o Google anunciou um funcionamento 1.000 vezes melhor, juntamente com uma melhor qualidade de voz. WaveNet foi, dessa maneira, usada para gerar vozes do Assistente do Google pros EUA.EUA.. Na conferência anual de desenvolvedores em maio de 2018, divulgou que estão disponíveis algumas vozes do Assistente do Google, feitas possível por WaveNet.