microsoft/speecht5_tts

El modelo SpeechT5-TTS es un modelo de síntesis de voz (text-to-speech) basado en arquitectura encoder-decoder unificada de voz y texto (SpeechT5), que genera voz en inglés a partir de texto usando un embedding de hablante para la voz. Ha sido entrenado sobre el dataset de referencia LibriTTS, utilizado en investigación para tareas de text-to-speech.

Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación. En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de audio y voz, específicamente para la síntesis de voz en inglés (con licencia MIT, opción preferente si se requiere uso comercial), con un enfoque académico y experimental.

Puedes consultar el modelo desde este link: https://huggingface.co/microsoft/speecht5_tts

Data and Resources

This dataset has no data

Additional Info

Field	Value
Last Updated	June 16, 2026, 07:28 (UTC)
Created	June 16, 2026, 07:28 (UTC)
algorithm	SpeechT5
authors	[{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework	pytorch
library_requirements	tranformers, torch, soundfile. También es necesario un x-vector del hablante y el vocoder microsoft/speecht5_hifigan.
marketplace_author_id	7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id	cf7d5558-3728-4b04-a15c-26b150a4d4be
resource_type	model
short_description	SpeechT5 English TTS: genera voz a partir de texto utilizando una representación de voz basada en el hablante.
task_type	other