77 datasets found

Organizations: DemIA Marketplace

Filter Results
  • hugging face embeddings starter

    Esta plantilla muestra cómo obtener representaciones vectoriales (embeddings) de texto con modelos de transformers, como base para búsqueda semántica, agrupamiento o...
  • facebook/mms-tts-spa

    El modelo MMS-TTS-spa es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en español de extremo a extremo. Ha sido desarrollado en el...
  • facebook/mms-tts-ara

    El modelo MMS-TTS-ara es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en árabe de extremo a extremo. Ha sido desarrollado en el...
  • facebook/mms-tts-eng

    El modelo MMS-TTS-eng es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en inglés de extremo a extremo con un único modelo. Ha sido...
  • microsoft/speecht5_tts

    El modelo SpeechT5-TTS es un modelo de síntesis de voz (text-to-speech) basado en arquitectura encoder-decoder unificada de voz y texto (SpeechT5), que genera voz en inglés a...
  • superb/wav2vec2-base-superb-ks

    El modelo Wav2Vec2-base-superb-ks es un modelo de clasificación de audio basado en arquitectura Wav2Vec2, ajustado para la detección de palabras clave (keyword spotting). Ha...
  • facebook/mms-lid-256

    El modelo MMS-LID-256 es un modelo de clasificación de audio basado en arquitectura Wav2Vec2 (familia MMS), especializado en la identificación del idioma hablado entre 256...
  • facebook/wav2vec2-base-960h

    El modelo Wav2Vec2-base-960h es un modelo de reconocimiento automático del habla basado en arquitectura Wav2Vec2 (codificador convolucional más transformer con objetivo CTC),...
  • openai/whisper-small

    El modelo Whisper-small es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mayor calidad...
  • openai/whisper-base

    El modelo Whisper-base es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mejor precisión...
  • openai/whisper-tiny

    El modelo Whisper-tiny es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), especializado en...
  • microsoft/trocr-base-printed

    El modelo TrOCR-base-printed es un modelo de reconocimiento óptico de caracteres (OCR) basado en arquitectura vision-encoder-decoder, especializado en transcribir texto impreso...
  • nlpconnect/vit-gpt2-image-captioning

    El modelo ViT-GPT2-image-captioning es un modelo de generación de descripciones de imágenes basado en arquitectura vision-encoder-decoder, que combina un codificador Vision...
  • microsoft/git-base-coco

    El modelo GIT-base-COCO es un modelo de generación de texto a partir de imágenes basado en arquitectura GIT (GenerativeImage2Text), que condiciona la generación a la imagen de...
  • Salesforce/blip-image-captioning-base

    El modelo BLIP-image-captioning-base es un modelo de generación de descripciones de imágenes (image captioning) basado en arquitectura de visión-lenguaje, que produce...
  • openai/clip-vit-base-patch32

    El modelo CLIP (ViT-base-patch32) es un modelo de embeddings conjuntos de imagen y texto basado en una arquitectura de doble codificador (Vision Transformer + transformer de...
  • Intel/dpt-large

    El modelo DPT-Large es un modelo de estimación de profundidad monocular basado en arquitectura Dense Prediction Transformer, que infiere un mapa de profundidad a partir de una...
  • facebook/mask2former-swin-small-coco-instance

    El modelo Mask2Former (Swin-small, COCO instance) es un modelo de segmentación de instancias basado en arquitectura de atención enmascarada con backbone Swin-small. Ha sido...
  • nvidia/segformer-b0-finetuned-ade-512-512

    El modelo SegFormer-B0 (ADE 512×512) es un modelo de segmentación semántica basado en arquitectura transformer jerárquica (SegFormer), que asigna una clase a cada píxel de la...
  • hustvl/yolos-tiny

    El modelo YOLOS-tiny es un modelo de detección de objetos basado en arquitectura Vision Transformer (ViT), en su variante ligera. Ha sido entrenado sobre el dataset de...