77 datasets found

Filter Results
  • hugging face embeddings starter

    Esta plantilla muestra cómo obtener representaciones vectoriales (embeddings) de texto con modelos de transformers, como base para búsqueda semántica, agrupamiento o...
  • facebook/mms-tts-spa

    El modelo MMS-TTS-spa es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en español de extremo a extremo. Ha sido desarrollado en el...
  • facebook/mms-tts-ara

    El modelo MMS-TTS-ara es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en árabe de extremo a extremo. Ha sido desarrollado en el...
  • facebook/mms-tts-eng

    El modelo MMS-TTS-eng es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en inglés de extremo a extremo con un único modelo. Ha sido...
  • microsoft/speecht5_tts

    El modelo SpeechT5-TTS es un modelo de síntesis de voz (text-to-speech) basado en arquitectura encoder-decoder unificada de voz y texto (SpeechT5), que genera voz en inglés a...
  • superb/wav2vec2-base-superb-ks

    El modelo Wav2Vec2-base-superb-ks es un modelo de clasificación de audio basado en arquitectura Wav2Vec2, ajustado para la detección de palabras clave (keyword spotting). Ha...
  • facebook/mms-lid-256

    El modelo MMS-LID-256 es un modelo de clasificación de audio basado en arquitectura Wav2Vec2 (familia MMS), especializado en la identificación del idioma hablado entre 256...
  • facebook/wav2vec2-base-960h

    El modelo Wav2Vec2-base-960h es un modelo de reconocimiento automático del habla basado en arquitectura Wav2Vec2 (codificador convolucional más transformer con objetivo CTC),...
  • openai/whisper-small

    El modelo Whisper-small es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mayor calidad...
  • openai/whisper-base

    El modelo Whisper-base es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mejor precisión...
  • openai/whisper-tiny

    El modelo Whisper-tiny es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), especializado en...
  • microsoft/trocr-base-printed

    El modelo TrOCR-base-printed es un modelo de reconocimiento óptico de caracteres (OCR) basado en arquitectura vision-encoder-decoder, especializado en transcribir texto impreso...
  • nlpconnect/vit-gpt2-image-captioning

    El modelo ViT-GPT2-image-captioning es un modelo de generación de descripciones de imágenes basado en arquitectura vision-encoder-decoder, que combina un codificador Vision...
  • microsoft/git-base-coco

    El modelo GIT-base-COCO es un modelo de generación de texto a partir de imágenes basado en arquitectura GIT (GenerativeImage2Text), que condiciona la generación a la imagen de...
  • Salesforce/blip-image-captioning-base

    El modelo BLIP-image-captioning-base es un modelo de generación de descripciones de imágenes (image captioning) basado en arquitectura de visión-lenguaje, que produce...
  • openai/clip-vit-base-patch32

    El modelo CLIP (ViT-base-patch32) es un modelo de embeddings conjuntos de imagen y texto basado en una arquitectura de doble codificador (Vision Transformer + transformer de...
  • Intel/dpt-large

    El modelo DPT-Large es un modelo de estimación de profundidad monocular basado en arquitectura Dense Prediction Transformer, que infiere un mapa de profundidad a partir de una...
  • facebook/mask2former-swin-small-coco-instance

    El modelo Mask2Former (Swin-small, COCO instance) es un modelo de segmentación de instancias basado en arquitectura de atención enmascarada con backbone Swin-small. Ha sido...
  • nvidia/segformer-b0-finetuned-ade-512-512

    El modelo SegFormer-B0 (ADE 512×512) es un modelo de segmentación semántica basado en arquitectura transformer jerárquica (SegFormer), que asigna una clase a cada píxel de la...
  • hustvl/yolos-tiny

    El modelo YOLOS-tiny es un modelo de detección de objetos basado en arquitectura Vision Transformer (ViT), en su variante ligera. Ha sido entrenado sobre el dataset de...
You can also access this registry using the API (see API Docs).