-
hugging face embeddings starter
Esta plantilla muestra cómo obtener representaciones vectoriales (embeddings) de texto con modelos de transformers, como base para búsqueda semántica, agrupamiento o... -
facebook/mms-tts-spa
El modelo MMS-TTS-spa es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en español de extremo a extremo. Ha sido desarrollado en el... -
facebook/mms-tts-ara
El modelo MMS-TTS-ara es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en árabe de extremo a extremo. Ha sido desarrollado en el... -
facebook/mms-tts-eng
El modelo MMS-TTS-eng es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en inglés de extremo a extremo con un único modelo. Ha sido... -
microsoft/speecht5_tts
El modelo SpeechT5-TTS es un modelo de síntesis de voz (text-to-speech) basado en arquitectura encoder-decoder unificada de voz y texto (SpeechT5), que genera voz en inglés a... -
superb/wav2vec2-base-superb-ks
El modelo Wav2Vec2-base-superb-ks es un modelo de clasificación de audio basado en arquitectura Wav2Vec2, ajustado para la detección de palabras clave (keyword spotting). Ha... -
facebook/mms-lid-256
El modelo MMS-LID-256 es un modelo de clasificación de audio basado en arquitectura Wav2Vec2 (familia MMS), especializado en la identificación del idioma hablado entre 256... -
facebook/wav2vec2-base-960h
El modelo Wav2Vec2-base-960h es un modelo de reconocimiento automático del habla basado en arquitectura Wav2Vec2 (codificador convolucional más transformer con objetivo CTC),... -
openai/whisper-small
El modelo Whisper-small es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mayor calidad... -
openai/whisper-base
El modelo Whisper-base es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mejor precisión... -
openai/whisper-tiny
El modelo Whisper-tiny es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), especializado en... -
microsoft/trocr-base-printed
El modelo TrOCR-base-printed es un modelo de reconocimiento óptico de caracteres (OCR) basado en arquitectura vision-encoder-decoder, especializado en transcribir texto impreso... -
nlpconnect/vit-gpt2-image-captioning
El modelo ViT-GPT2-image-captioning es un modelo de generación de descripciones de imágenes basado en arquitectura vision-encoder-decoder, que combina un codificador Vision... -
microsoft/git-base-coco
El modelo GIT-base-COCO es un modelo de generación de texto a partir de imágenes basado en arquitectura GIT (GenerativeImage2Text), que condiciona la generación a la imagen de... -
Salesforce/blip-image-captioning-base
El modelo BLIP-image-captioning-base es un modelo de generación de descripciones de imágenes (image captioning) basado en arquitectura de visión-lenguaje, que produce... -
openai/clip-vit-base-patch32
El modelo CLIP (ViT-base-patch32) es un modelo de embeddings conjuntos de imagen y texto basado en una arquitectura de doble codificador (Vision Transformer + transformer de... -
Intel/dpt-large
El modelo DPT-Large es un modelo de estimación de profundidad monocular basado en arquitectura Dense Prediction Transformer, que infiere un mapa de profundidad a partir de una... -
facebook/mask2former-swin-small-coco-instance
El modelo Mask2Former (Swin-small, COCO instance) es un modelo de segmentación de instancias basado en arquitectura de atención enmascarada con backbone Swin-small. Ha sido... -
nvidia/segformer-b0-finetuned-ade-512-512
El modelo SegFormer-B0 (ADE 512×512) es un modelo de segmentación semántica basado en arquitectura transformer jerárquica (SegFormer), que asigna una clase a cada píxel de la... -
hustvl/yolos-tiny
El modelo YOLOS-tiny es un modelo de detección de objetos basado en arquitectura Vision Transformer (ViT), en su variante ligera. Ha sido entrenado sobre el dataset de...