nlpconnect/vit-gpt2-image-captioning

El modelo ViT-GPT2-image-captioning es un modelo de generación de descripciones de imágenes basado en arquitectura vision-encoder-decoder, que combina un codificador Vision Transformer con un decodificador GPT-2. Es una línea base sencilla y popular para la tarea de image captioning.

Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación.

En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de visión por computador, específicamente como línea base ligera de descripción de imágenes, con un enfoque académico y experimental. Puedes consultar el modelo desde este link: https://huggingface.co/nlpconnect/vit-gpt2-image-captioning

Data and Resources

This dataset has no data

Additional Info

Field	Value
Last Updated	June 16, 2026, 06:40 (UTC)
Created	June 16, 2026, 06:40 (UTC)
algorithm	Transformer (ViT), GPT-2.
authors	[{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework	pytorch
library_requirements	transformers, torch, Pillow
marketplace_author_id	7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id	3de8c611-6729-47b8-8b74-2f32fe7bd4e0
resource_type	model
short_description	Modelo de subtitulación con codificador ViT y decodificador GPT-2: una referencia sencilla y muy utilizada.
task_type	other