Salesforce/blip-image-captioning-base

El modelo BLIP-image-captioning-base es un modelo de generación de descripciones de imágenes (image captioning) basado en arquitectura de visión-lenguaje, que produce descripciones en inglés a partir de una imagen. Ha sido entrenado para la tarea de descripción de imágenes, ampliamente estudiada en investigación de visión-lenguaje.

Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación. En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de visión por computador, específicamente para la generación de descripciones accesibles (texto alternativo) de las imágenes de la plataforma, con un enfoque académico y experimental.

Puedes consultar el modelo desde este link: https://huggingface.co/Salesforce/blip-image-captioning-base

Data and Resources

This dataset has no data

Additional Info

Field Value
Last Updated June 11, 2026, 11:09 (UTC)
Created June 11, 2026, 11:09 (UTC)
algorithm BLIP
authors [{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework pytorch
library_requirements Transformers, torch, Pillow.
marketplace_author_id 7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id 90ca2caa-6808-4a26-a1d0-3bef1d67805e
resource_type model
short_description BLIP — arquitectura de visión-lenguaje (codificador de imagen + decodificador de texto) para la generación de descripciones.
task_type other