Dataset - CKAN

Organizations

Groups

There are no Groups that match this search

Formats

Licenses

There are no Licenses that match this search

hugging face embeddings starter

Esta plantilla muestra cómo obtener representaciones vectoriales (embeddings) de texto con modelos de transformers, como base para búsqueda semántica, agrupamiento o...
- ZIP
facebook/mms-tts-spa

El modelo MMS-TTS-spa es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en español de extremo a extremo. Ha sido desarrollado en el...
facebook/mms-tts-ara

El modelo MMS-TTS-ara es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en árabe de extremo a extremo. Ha sido desarrollado en el...
facebook/mms-tts-eng

El modelo MMS-TTS-eng es un modelo de síntesis de voz (text-to-speech) basado en arquitectura VITS, que genera voz en inglés de extremo a extremo con un único modelo. Ha sido...
microsoft/speecht5_tts

El modelo SpeechT5-TTS es un modelo de síntesis de voz (text-to-speech) basado en arquitectura encoder-decoder unificada de voz y texto (SpeechT5), que genera voz en inglés a...
superb/wav2vec2-base-superb-ks

El modelo Wav2Vec2-base-superb-ks es un modelo de clasificación de audio basado en arquitectura Wav2Vec2, ajustado para la detección de palabras clave (keyword spotting). Ha...
facebook/mms-lid-256

El modelo MMS-LID-256 es un modelo de clasificación de audio basado en arquitectura Wav2Vec2 (familia MMS), especializado en la identificación del idioma hablado entre 256...
facebook/wav2vec2-base-960h

El modelo Wav2Vec2-base-960h es un modelo de reconocimiento automático del habla basado en arquitectura Wav2Vec2 (codificador convolucional más transformer con objetivo CTC),...
openai/whisper-small

El modelo Whisper-small es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mayor calidad...
openai/whisper-base

El modelo Whisper-base es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), que ofrece mejor precisión...
openai/whisper-tiny

El modelo Whisper-tiny es un modelo de reconocimiento automático del habla basado en arquitectura transformer encoder-decoder (sequence-to-sequence), especializado en...
microsoft/trocr-base-printed

El modelo TrOCR-base-printed es un modelo de reconocimiento óptico de caracteres (OCR) basado en arquitectura vision-encoder-decoder, especializado en transcribir texto impreso...
nlpconnect/vit-gpt2-image-captioning

El modelo ViT-GPT2-image-captioning es un modelo de generación de descripciones de imágenes basado en arquitectura vision-encoder-decoder, que combina un codificador Vision...
microsoft/git-base-coco

El modelo GIT-base-COCO es un modelo de generación de texto a partir de imágenes basado en arquitectura GIT (GenerativeImage2Text), que condiciona la generación a la imagen de...
Salesforce/blip-image-captioning-base

El modelo BLIP-image-captioning-base es un modelo de generación de descripciones de imágenes (image captioning) basado en arquitectura de visión-lenguaje, que produce...
openai/clip-vit-base-patch32

El modelo CLIP (ViT-base-patch32) es un modelo de embeddings conjuntos de imagen y texto basado en una arquitectura de doble codificador (Vision Transformer + transformer de...
Intel/dpt-large

El modelo DPT-Large es un modelo de estimación de profundidad monocular basado en arquitectura Dense Prediction Transformer, que infiere un mapa de profundidad a partir de una...
facebook/mask2former-swin-small-coco-instance

El modelo Mask2Former (Swin-small, COCO instance) es un modelo de segmentación de instancias basado en arquitectura de atención enmascarada con backbone Swin-small. Ha sido...
nvidia/segformer-b0-finetuned-ade-512-512

El modelo SegFormer-B0 (ADE 512×512) es un modelo de segmentación semántica basado en arquitectura transformer jerárquica (SegFormer), que asigna una clase a cada píxel de la...
hustvl/yolos-tiny

El modelo YOLOS-tiny es un modelo de detección de objetos basado en arquitectura Vision Transformer (ViT), en su variante ligera. Ha sido entrenado sobre el dataset de...

You can also access this registry using the API (see API Docs).

77 datasets found