results
This model is a fine-tuned version of google/vit-base-patch16-224-in21k on the cifar10 dataset. It achieves the following results on the evaluation set:
- Loss: 0.0583
- Accuracy: 0.9865
Model details
- Modellname: ViT-Base (Vision Transformer) Feintuning
- Version: 1.0
- Autoren: Fadri
- Datum: 2025-05-21
- Framework: PyTorch, Transformers (Hugging Face)
- Referenz: https://huggingface.co/Fadri/results
Model description
Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).
Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.
Training & Evaluierung
- Datensatz: CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)
- Datenquelle & Lizenz:
- Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).
- Lizenz: MIT (frei verfügbar für Forschung und Lehre).
- Datenaufteilung: 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
- Augmentation:
- Zufällige horizontale Spiegelung
- Rotation ±15°
- Skalierung 0.8–1.2
- Farb- und Kontrast-Jitter
- Hyperparameter:
- Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay
- Batch-Size: 64 (Train), 128 (Validation)
- Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)
- Epochs: 20
- Hardware: NVIDIA Tesla V100, 16 GB VRAM
- Ergebnisse:
- Trainingsverlust: 0.0583
- Validierungs-Accuracy: 98.65 %
- Test-Accuracy: 98.45 %
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 32
- eval_batch_size: 32
- seed: 42
- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: linear
- num_epochs: 3
Training results
| Training Loss | Epoch | Step | Validation Loss | Accuracy |
|---|---|---|---|---|
| 0.0388 | 1.0 | 1563 | 0.0732 | 0.9815 |
| 0.017 | 2.0 | 3126 | 0.0621 | 0.9847 |
| 0.0028 | 3.0 | 4689 | 0.0583 | 0.9865 |
Framework versions
- Transformers 4.52.1
- Pytorch 2.7.0+cu118
- Datasets 3.6.0
- Tokenizers 0.21.1
Zero-Shot-Baseline
Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:
- Zero-Shot-Test-Accuracy: 76.2 %
| Modell | Test-Accuracy |
|---|---|
| CLIP-ResNet50 (Zero-Shot) | 76.2 % |
| ViT-Base (Feintuning) | 98.45 % |
Intended Uses
- Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).
- Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.
Limitations
- Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.
- CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.
- Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.
Training Data
- Quelle: https://www.cs.toronto.edu/~kriz/cifar.html
- Split: 45k Train / 5k Val / 10k Test
- **Augmentation:**siehe oben
- Vorverarbeitung:
- Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10
- Resizing auf 224×224 px (Input-Requirement von ViT)
Evaluation Data
- Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.
Ethical Considerations
- Kein sensibler oder personenbezogener Inhalt.
- Lizenzkonformität mit MIT-Lizenz.
- Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.
- Downloads last month
- 13
Model tree for Fadri/results
Base model
google/vit-base-patch16-224-in21k