facebook/wav2vec2-base-960h

El modelo Wav2Vec2-base-960h es un modelo de reconocimiento automático del habla basado en arquitectura Wav2Vec2 (codificador convolucional más transformer con objetivo CTC), especializado en transcripción en inglés. Ha sido ajustado sobre 960 horas del dataset de referencia LibriSpeech, ampliamente utilizado en investigación para tareas de automatic speech recognition. Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación.

En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de audio y voz, específicamente como línea base de reconocimiento del habla en inglés, con un enfoque académico y experimental.

Puedes consultar el modelo desde este link: https://huggingface.co/facebook/wav2vec2-base-960h

Data and Resources

This dataset has no data

Additional Info

Field Value
Last Updated June 16, 2026, 06:57 (UTC)
Created June 16, 2026, 06:57 (UTC)
algorithm Wav2Vec2, Transformer
authors [{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework pytorch
library_requirements transformers, torch, librosa/soundfile, ffmpeg.
marketplace_author_id 7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id e320693e-aa9e-479c-9a66-5266f9be89f8
resource_type model
short_description Modelo base Wav2Vec2 ajustado con 960 horas de LibriSpeech; reconocimiento de voz por secuencias continuas (CTC) en inglés.
task_type other