| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.1, | |
| "eval_steps": 50, | |
| "global_step": 250, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.002, | |
| "grad_norm": 0.2585286796092987, | |
| "learning_rate": 0.0001, | |
| "loss": 0.9729, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.004, | |
| "grad_norm": 0.3368561565876007, | |
| "learning_rate": 0.0002, | |
| "loss": 0.9899, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.006, | |
| "grad_norm": 0.499980092048645, | |
| "learning_rate": 0.00019583333333333334, | |
| "loss": 0.7853, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.008, | |
| "grad_norm": 0.3696683347225189, | |
| "learning_rate": 0.00019166666666666667, | |
| "loss": 0.6654, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 0.40797653794288635, | |
| "learning_rate": 0.0001875, | |
| "loss": 0.6311, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.012, | |
| "grad_norm": 0.33503052592277527, | |
| "learning_rate": 0.00018333333333333334, | |
| "loss": 0.6248, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.014, | |
| "grad_norm": 0.3338172733783722, | |
| "learning_rate": 0.0001791666666666667, | |
| "loss": 0.6046, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 0.3330083191394806, | |
| "learning_rate": 0.000175, | |
| "loss": 0.6173, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.018, | |
| "grad_norm": 0.3610495328903198, | |
| "learning_rate": 0.00017083333333333333, | |
| "loss": 0.6598, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 0.5117771625518799, | |
| "learning_rate": 0.0001666666666666667, | |
| "loss": 0.701, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "eval_loss": 0.5943231582641602, | |
| "eval_runtime": 1078.9543, | |
| "eval_samples_per_second": 5.423, | |
| "eval_steps_per_second": 0.678, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.022, | |
| "grad_norm": 0.24727080762386322, | |
| "learning_rate": 0.00016250000000000002, | |
| "loss": 0.5523, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.024, | |
| "grad_norm": 0.32829391956329346, | |
| "learning_rate": 0.00015833333333333332, | |
| "loss": 0.5601, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.026, | |
| "grad_norm": 0.2365810126066208, | |
| "learning_rate": 0.00015416666666666668, | |
| "loss": 0.5529, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.028, | |
| "grad_norm": 0.23763389885425568, | |
| "learning_rate": 0.00015000000000000001, | |
| "loss": 0.5683, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.03, | |
| "grad_norm": 0.2370971143245697, | |
| "learning_rate": 0.00014583333333333335, | |
| "loss": 0.5734, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 0.23187637329101562, | |
| "learning_rate": 0.00014166666666666668, | |
| "loss": 0.5589, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.034, | |
| "grad_norm": 0.2783190906047821, | |
| "learning_rate": 0.0001375, | |
| "loss": 0.5833, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.036, | |
| "grad_norm": 0.2846642732620239, | |
| "learning_rate": 0.00013333333333333334, | |
| "loss": 0.5855, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.038, | |
| "grad_norm": 0.30239176750183105, | |
| "learning_rate": 0.00012916666666666667, | |
| "loss": 0.6083, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 0.4522075057029724, | |
| "learning_rate": 0.000125, | |
| "loss": 0.6666, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "eval_loss": 0.5652860403060913, | |
| "eval_runtime": 1078.4557, | |
| "eval_samples_per_second": 5.425, | |
| "eval_steps_per_second": 0.679, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.042, | |
| "grad_norm": 0.34593072533607483, | |
| "learning_rate": 0.00012083333333333333, | |
| "loss": 0.5283, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.044, | |
| "grad_norm": 0.24053940176963806, | |
| "learning_rate": 0.00011666666666666668, | |
| "loss": 0.5376, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.046, | |
| "grad_norm": 0.25374647974967957, | |
| "learning_rate": 0.00011250000000000001, | |
| "loss": 0.5268, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 0.2413879930973053, | |
| "learning_rate": 0.00010833333333333333, | |
| "loss": 0.5466, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.22842754423618317, | |
| "learning_rate": 0.00010416666666666667, | |
| "loss": 0.558, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 0.052, | |
| "grad_norm": 0.23777280747890472, | |
| "learning_rate": 0.0001, | |
| "loss": 0.5304, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.054, | |
| "grad_norm": 0.2853969633579254, | |
| "learning_rate": 9.583333333333334e-05, | |
| "loss": 0.5773, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 0.056, | |
| "grad_norm": 0.28491005301475525, | |
| "learning_rate": 9.166666666666667e-05, | |
| "loss": 0.5898, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.058, | |
| "grad_norm": 0.3216317892074585, | |
| "learning_rate": 8.75e-05, | |
| "loss": 0.6376, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.47678303718566895, | |
| "learning_rate": 8.333333333333334e-05, | |
| "loss": 0.6448, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "eval_loss": 0.5443492531776428, | |
| "eval_runtime": 1078.9513, | |
| "eval_samples_per_second": 5.423, | |
| "eval_steps_per_second": 0.678, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.062, | |
| "grad_norm": 0.3121783435344696, | |
| "learning_rate": 7.916666666666666e-05, | |
| "loss": 0.5081, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 0.2449740618467331, | |
| "learning_rate": 7.500000000000001e-05, | |
| "loss": 0.511, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.066, | |
| "grad_norm": 0.2097545564174652, | |
| "learning_rate": 7.083333333333334e-05, | |
| "loss": 0.509, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 0.068, | |
| "grad_norm": 0.23882268369197845, | |
| "learning_rate": 6.666666666666667e-05, | |
| "loss": 0.5411, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "grad_norm": 0.26276838779449463, | |
| "learning_rate": 6.25e-05, | |
| "loss": 0.5539, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 0.072, | |
| "grad_norm": 0.26204946637153625, | |
| "learning_rate": 5.833333333333334e-05, | |
| "loss": 0.5692, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.074, | |
| "grad_norm": 0.27385151386260986, | |
| "learning_rate": 5.4166666666666664e-05, | |
| "loss": 0.5599, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 0.076, | |
| "grad_norm": 0.3151029646396637, | |
| "learning_rate": 5e-05, | |
| "loss": 0.5622, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.078, | |
| "grad_norm": 0.372055321931839, | |
| "learning_rate": 4.5833333333333334e-05, | |
| "loss": 0.6128, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.4943559765815735, | |
| "learning_rate": 4.166666666666667e-05, | |
| "loss": 0.6352, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "eval_loss": 0.5273013114929199, | |
| "eval_runtime": 1079.0525, | |
| "eval_samples_per_second": 5.422, | |
| "eval_steps_per_second": 0.678, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.082, | |
| "grad_norm": 0.28252649307250977, | |
| "learning_rate": 3.7500000000000003e-05, | |
| "loss": 0.4963, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 0.084, | |
| "grad_norm": 0.2909074127674103, | |
| "learning_rate": 3.3333333333333335e-05, | |
| "loss": 0.5165, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.086, | |
| "grad_norm": 0.2641913890838623, | |
| "learning_rate": 2.916666666666667e-05, | |
| "loss": 0.5264, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 0.088, | |
| "grad_norm": 0.2438758909702301, | |
| "learning_rate": 2.5e-05, | |
| "loss": 0.525, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 0.2509464621543884, | |
| "learning_rate": 2.0833333333333336e-05, | |
| "loss": 0.5451, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 0.092, | |
| "grad_norm": 0.26488572359085083, | |
| "learning_rate": 1.6666666666666667e-05, | |
| "loss": 0.5512, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.094, | |
| "grad_norm": 0.2820191979408264, | |
| "learning_rate": 1.25e-05, | |
| "loss": 0.548, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 0.3010896146297455, | |
| "learning_rate": 8.333333333333334e-06, | |
| "loss": 0.578, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.098, | |
| "grad_norm": 0.38558459281921387, | |
| "learning_rate": 4.166666666666667e-06, | |
| "loss": 0.5913, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.6697375178337097, | |
| "learning_rate": 0.0, | |
| "loss": 0.6351, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "eval_loss": 0.5142252445220947, | |
| "eval_runtime": 1078.9757, | |
| "eval_samples_per_second": 5.423, | |
| "eval_steps_per_second": 0.678, | |
| "step": 250 | |
| } | |
| ], | |
| "logging_steps": 5, | |
| "max_steps": 250, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 1, | |
| "save_steps": 50, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 2.64628687263744e+16, | |
| "train_batch_size": 20, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |