DemIA Marketplace - Organizations

hugging face embeddings starter

Esta plantilla muestra cómo obtener representaciones vectoriales (embeddings) de texto con modelos de transformers, como base para búsqueda semántica, agrupamiento o...

ZIP

facebook/mms-tts-spa

El modelo MMS-TTS-spa es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en español de extremo a extremo. Ha sido desarrollado en el...

facebook/mms-tts-ara

El modelo MMS-TTS-ara es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en árabe de extremo a extremo. Ha sido desarrollado en el...

facebook/mms-tts-eng

El modelo MMS-TTS-eng es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en inglés de extremo a extremo con un único modelo. Ha sido...

microsoft/speecht5_tts

El modelo SpeechT5-TTS es un modelo de síntesis de voz (text-to-speech) basado en arquitectura encoder-decoder unificada de voz y texto (SpeechT5), que genera voz en inglés a...

superb/wav2vec2-base-superb-ks

El modelo Wav2Vec2-base-superb-ks es un modelo de clasificación de audio basado en arquitectura Wav2Vec2, ajustado para la detección de palabras clave (keyword spotting). Ha...

facebook/mms-lid-256

El modelo MMS-LID-256 es un modelo de clasificación de audio basado en arquitectura Wav2Vec2 (familia MMS), especializado en la identificación del idioma hablado entre 256...

facebook/wav2vec2-base-960h

El modelo Wav2Vec2-base-960h es un modelo de reconocimiento automático del habla basado en arquitectura Wav2Vec2 (codificador convolucional más transformer con objetivo CTC),...

openai/whisper-small

El modelo Whisper-small es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mayor calidad...

openai/whisper-base

El modelo Whisper-base es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mejor precisión...

openai/whisper-tiny

El modelo Whisper-tiny es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), especializado en...

microsoft/trocr-base-printed

El modelo TrOCR-base-printed es un modelo de reconocimiento óptico de caracteres (OCR) basado en arquitectura vision-encoder-decoder, especializado en transcribir texto impreso...

nlpconnect/vit-gpt2-image-captioning

El modelo ViT-GPT2-image-captioning es un modelo de generación de descripciones de imágenes basado en arquitectura vision-encoder-decoder, que combina un codificador Vision...

microsoft/git-base-coco

El modelo GIT-base-COCO es un modelo de generación de texto a partir de imágenes basado en arquitectura GIT (GenerativeImage2Text), que condiciona la generación a la imagen de...

Salesforce/blip-image-captioning-base

El modelo BLIP-image-captioning-base es un modelo de generación de descripciones de imágenes (image captioning) basado en arquitectura de visión-lenguaje, que produce...

openai/clip-vit-base-patch32

El modelo CLIP (ViT-base-patch32) es un modelo de embeddings conjuntos de imagen y texto basado en una arquitectura de doble codificador (Vision Transformer + transformer de...

Intel/dpt-large

El modelo DPT-Large es un modelo de estimación de profundidad monocular basado en arquitectura Dense Prediction Transformer, que infiere un mapa de profundidad a partir de una...

facebook/mask2former-swin-small-coco-instance

El modelo Mask2Former (Swin-small, COCO instance) es un modelo de segmentación de instancias basado en arquitectura de atención enmascarada con backbone Swin-small. Ha sido...

nvidia/segformer-b0-finetuned-ade-512-512

El modelo SegFormer-B0 (ADE 512×512) es un modelo de segmentación semántica basado en arquitectura transformer jerárquica (SegFormer), que asigna una clase a cada píxel de la...

hustvl/yolos-tiny

El modelo YOLOS-tiny es un modelo de detección de objetos basado en arquitectura Vision Transformer (ViT), en su variante ligera. Ha sido entrenado sobre el dataset de...

77 datasets found