microsoft/git-base-coco

El modelo GIT-base-COCO es un modelo de generación de texto a partir de imágenes basado en arquitectura GIT (GenerativeImage2Text), que condiciona la generación a la imagen de entrada. Ha sido ajustado sobre el dataset de referencia COCO, ampliamente utilizado en investigación para tareas de image captioning.

Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación. En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de visión por computador, específicamente para la generación de texto a partir de imágenes (descripción y preguntas sobre la imagen), con un enfoque académico y experimental.

Puedes consultar el modelo desde este link: https://huggingface.co/microsoft/git-base-coco

Data and Resources

This dataset has no data

Additional Info

Field Value
Last Updated June 11, 2026, 11:12 (UTC)
Created June 11, 2026, 11:12 (UTC)
algorithm GIT
authors [{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework pytorch
library_requirements Transformers, torch, Pillow.
marketplace_author_id 7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id 44b2368d-aece-477f-adc3-83237284c1d2
resource_type model
short_description Modelo GIT (GenerativeImage2Text) ajustado en COCO; generación de leyendas para imágenes / texto condicionado por imágenes.
task_type other