results

This model is a fine-tuned version of google/vit-base-patch16-224-in21k on the cifar10 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0583
  • Accuracy: 0.9865

Model details

  • Modellname: ViT-Base (Vision Transformer) Feintuning
  • Version: 1.0
  • Autoren: Fadri
  • Datum: 2025-05-21
  • Framework: PyTorch, Transformers (Hugging Face)
  • Referenz: https://huggingface.co/Fadri/results

Model description

Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).
Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.

Training & Evaluierung

  • Datensatz: CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)
  • Datenquelle & Lizenz:
    • Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).
    • Lizenz: MIT (frei verfügbar für Forschung und Lehre).
  • Datenaufteilung: 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
  • Augmentation:
    • Zufällige horizontale Spiegelung
    • Rotation ±15°
    • Skalierung 0.8–1.2
    • Farb- und Kontrast-Jitter
  • Hyperparameter:
    • Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay
    • Batch-Size: 64 (Train), 128 (Validation)
    • Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)
    • Epochs: 20
  • Hardware: NVIDIA Tesla V100, 16 GB VRAM
  • Ergebnisse:
    • Trainingsverlust: 0.0583
    • Validierungs-Accuracy: 98.65 %
    • Test-Accuracy: 98.45 %

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 32
  • eval_batch_size: 32
  • seed: 42
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • num_epochs: 3

Training results

Training Loss Epoch Step Validation Loss Accuracy
0.0388 1.0 1563 0.0732 0.9815
0.017 2.0 3126 0.0621 0.9847
0.0028 3.0 4689 0.0583 0.9865

Framework versions

  • Transformers 4.52.1
  • Pytorch 2.7.0+cu118
  • Datasets 3.6.0
  • Tokenizers 0.21.1

Zero-Shot-Baseline

Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:

  • Zero-Shot-Test-Accuracy: 76.2 %
Modell Test-Accuracy
CLIP-ResNet50 (Zero-Shot) 76.2 %
ViT-Base (Feintuning) 98.45 %

Intended Uses

  • Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).
  • Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.

Limitations

  • Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.
  • CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.
  • Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.

Training Data

  • Quelle: https://www.cs.toronto.edu/~kriz/cifar.html
  • Split: 45k Train / 5k Val / 10k Test
  • **Augmentation:**siehe oben
  • Vorverarbeitung:
    • Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10
    • Resizing auf 224×224 px (Input-Requirement von ViT)

Evaluation Data

  • Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.

Ethical Considerations

  • Kein sensibler oder personenbezogener Inhalt.
  • Lizenzkonformität mit MIT-Lizenz.
  • Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.
Downloads last month
13
Safetensors
Model size
85.8M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Fadri/results

Finetuned
(2460)
this model

Space using Fadri/results 1

Evaluation results