google/vit-base-patch16-224

El modelo ViT-base-patch16-224 es un modelo de clasificación de imágenes basado en arquitectura Vision Transformer, que divide la imagen en parches de 16×16 píxeles y los procesa como una secuencia. Ha sido preentrenado y ajustado sobre los datasets de referencia ImageNet-21k e ImageNet-1k, ampliamente utilizados en investigación para tareas de image classification.

Este modelo está alojado en la plataforma de Hugging Face, que actúa como repositorio y ecosistema para la distribución de modelos de inteligencia artificial preentrenados y listos para su uso en producción o investigación.

En el contexto de la Cátedra, este modelo se incluye como una selección orientada a tareas de visión por computador, específicamente para la clasificación general de imágenes (y como base para ajustar clases propias), con un enfoque académico y experimental.

Puedes consultar el modelo desde este link: https://huggingface.co/google/vit-base-patch16-224

Data and Resources

This dataset has no data

Additional Info

Field	Value
Last Updated	June 11, 2026, 07:51 (UTC)
Created	June 11, 2026, 07:51 (UTC)
algorithm	Vision Transformer (ViT-base)
authors	[{"id":"7977e0b3-6ee7-442f-82f6-80086d33df0e","role":"principal","type":"user"}]
framework	pytorch
library_requirements	transformers, torch, Pillow
marketplace_author_id	7977e0b3-6ee7-442f-82f6-80086d33df0e
marketplace_id	027af539-5fde-48de-8e4e-666dcd87f8ed
resource_type	model
short_description	Vision Transformer (base, 16×16 patches, 224px) preentrenado/fine-tuned on ImageNet-1k.
task_type	segmentation