openai/clip-vit-base-patch32

El modelo CLIP (ViT-base-patch32) es un modelo de embeddings conjuntos de imagen y texto basado en una arquitectura de doble codificador (Vision Transformer + transformer de texto) entrenada por contraste, que permite clasificación zero-shot y búsqueda imagen-texto por similitud del coseno. Ha sido entrenado sobre grandes colecciones de pares imagen-texto, ampliamente utilizadas en investigación para el aprendizaje de representaciones multimodales.

Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación. En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de visión por computador y multimodalidad, específicamente para la búsqueda y similitud imagen-texto del Marketplace, con un enfoque académico y experimental.

Puedes consultar el modelo desde este link: https://huggingface.co/openai/clip-vit-base-patch32

Data and Resources

This dataset has no data

Additional Info

Field Value
Last Updated June 11, 2026, 11:02 (UTC)
Created June 11, 2026, 11:02 (UTC)
algorithm CLIP
authors [{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework pytorch
library_requirements Transformers, torch, Pillow.
marketplace_author_id 7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id ef17a405-bf00-405b-bfd1-26009a02bb7b
resource_type model
short_description CLIP: modelo conjunto de incrustación de imágenes y texto que permite la clasificación sin entrenamiento previo y la búsqueda de imágenes y texto mediante similitud coseno.
task_type multiclass_classification